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内 容 提 要 


本 书 是 机 器 学 习 入 门 书 ， 以 Python 语言 介绍 。 主 要 内 容 包括 : 机 器 学 习 的 基本 概念 及 其 应 
用 ; 实践 中 最 常用 的 机 器 学 习 算法 以 及 这 些 算 法 的 优 缺 点 ; 在 机 器 学 习 中 待 处 理 数据 的 呈现 方 
式 的 重要 性 ， 以 及 应 重点 关注 数据 的 哪些 方面 ; 模型 评估 和 调 参 的 高 级 方法 ， 重 点 讲解 交叉 验 
证 和 网 格 搜索 ; 管道 的 概念 ; 如 何 将 前 面 各 章 的 方法 应 用 到 文本 数据 上 ， 还 介绍 了 一 些 文本 特 
有 的 处 理 方法 。 

本 书 适合 机 器 学 习 从 业者 或 有 志 成 为 机 器 学 习 从 业者 的 人 阅读 。 
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目前 ， 从 医疗 诊断 和 治疗 到 在 社交 网 络 上 寻找 好 友 ， 许 多 商业 应 用 和 研究 项 目 都 离 不 开机 
器 学 习 。 许 多 人 以 为 ， 只 有 大 公司 的 大 型 研究 团队 才能 用 到 机 器 学 习 。 在 本 书 中 ， 我 们 要 
向 你 展示 ， 自 己 动手 构建 机 器 学 习 解 决 方案 是 多 么 容易 的 一 件 事 ， 也 将 介绍 如 何 将 这 件 事 
做 到 最 好 。 学 完 本 书 中 的 知识 ， 你 可 以 自己 构建 系统 ， 研 究 Twitter 用 户 的 情感 ， 或 者 对 
全 球 变 暖 做 出 预测 。 机 器 学 习 的 应 用 十 分 广泛 ， 如 今 的 海量 数据 使 得 其 应 用 范围 更 是 远 超 
人 们 的 想象 。 


目标 读者 

本 书 是 为 机 器 学 习 从 业者 或 有 志 成 为 机 器 学 习 从 业者 的 人 准备 的 ， 他 们 在 为 现实 生活 中 
的 机 器 学 习 问 题 寻 找 解决 方案 。 这 是 一 本 入 门 书 ， 不 需要 读者 具备 机 器 学 习 或 人 工 智能 
(artificial intelligence，AI) 的 相关 知识 。 我 们 主要 使 用 Python 和 scikit-tLearn 库 ， 一 步 一 
步 构 建 一 个 有 效 的 机 器 学 习 应 用 。 我 们 介绍 的 方法 适用 于 科学 家 和 研究 人 员 ， 也 会 对 开发 
商业 应 用 的 数据 科学 家 有 所 帮助 。 如 果 你 对 Python 以 及 NumPy 和 matplotlib 库 有 所 了 解 
的 话 ， 将 能 够 更 好 地 掌握 本 书 的 内 容 。 

我 们 刻意 不 将 数学 作为 重点 ， 而 是 将 机 器 学 习 算 法 的 实践 作为 重点 。 数 学 (尤其 是 概率 
论 ) 是 机 器 学 习 算 法 的 基石 ， 所 以 我 们 不 会 详细 分 析 算 法 的 细节 。 如 果 你 对 机 器 学 习 算法 
的 数学 部 分 感 兴趣 ， 我 们 推荐 阅读 Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 合 
著 的 《统计 学 习 基 础 》(Elements of Statistical Learning，Springer 出 版 社 ) 一 书 ， 可 以 在 几 
位 作者 的 网 站 上 免费 阅读 这 本 书 (http://statweb.stanford.edu/~tibs/ElemStatLearn/)。 我 们 也 
不 会 从 头 讲解 如 何 编写 机 器 学 习 算法 ， 而 是 将 重点 放 在 如 何 应 用 scikit-learn 库 和 其 他 库 
中 已 经 实现 的 海量 模型 。 


写作 本 书 的 原因 
市 面 上 已 经 有 许多 关于 机 器 学 习 和 AI 的 书 了 ， 但 这 些 书 都 是 为 计算 机 科学 专业 的 研究 生 


或 博士 生 准 备 的 ， 里 面 全 都 是 高 等 数学 的 内 容 。 与 之 形成 鲜明 对 比 的 是 ， 在 研究 领域 和 商 
业 应 用 中 ， 机 器 学 习 是 作为 一 般 工 具 使 用 的 。 如 今 ， 使 用 机 器 学 习 并 不 需要 拥有 博士 学 



































































































































位 。 然 而 ， 能 够 完全 涵盖 在 实践 中 实现 机 器 学 习 算 法 的 所 有 重要 内 容 ， 而 又 不 需要 先 修 高 
等 数学 课程 ， 这 样 的 学 习 资源 少 之 又 少 。 对 于 那些 想 要 使 用 机 器 学 习 算 法 而 又 不 想 花 费 大 
量 时 间 研 读 微 积分 、 线 性 代数 和 概率 论 的 人 来 说 ， 我 们 希望 本 书 能 够 有 所 帮助 。 


本 书 概览 


本 书 的 结构 大 致 如 下 。 


。 第 1 章 介绍 机 器 学 习 的 基本 概念 及 其 应 用 ， 并 给 出 本 书 会 用 到 的 基本 设置 。 

。 第 2 章 和 第 3 章 介绍 实践 中 最 常用 的 机 器 学 习 算 法 ， 并 讨论 这 些 算法 的 优 缺 点 。 

。 第 4 章 介绍 在 机 器 学 习 中 待 处 理 数据 的 呈现 方式 的 重要 性 ， 以 及 应 重点 关注 数据 的 哪些 
方面 。 

。 第 5 章 介绍 模型 评估 和 调 参 的 高 级 方法 ， 重 点 讲解 交叉 验证 和 网 格 搜索 。 

。 第 6 章 解 释 管道 的 概念 。 管 道 用 于 串联 多 个 模型 并 封装 工作 流 。 

。 第 7 章 介绍 如 何 将 前 面 各 章 讲述 的 方法 应 用 到 文本 数据 上 ， 还 介绍 了 一 些 文本 特有 的 处 
理 方 法 。 

。 第 8 章 对 全 书 进 行 总 结 ， 还 介绍 了 有 关 更 高 级 主题 的 参考 资料 。 

虽然 第 2 章 和 第 3 章 给 出 了 实际 算法 ， 但 对 于 初学 者 来 说 ， 并 不 需要 理解 所 有 这 些 算法 。 

如 果 你 想 要 尽快 构建 一 个 机 器 学 习 系统 ， 我 们 建议 你 首先 阅读 第 1 章 和 第 2 章 的 开始 部 

分 ， 里 面 介绍 了 所 有 的 核心 概念 。 然 后 你 可 以 翻 到 2.5 节 ， 里 面 提 到 了 我 们 介绍 的 所 有 监 

督学 习 模 型 。 从 中 选择 最 适合 你 需求 的 模型 ， 然 后 翻 回 到 对 应 小 节 阅 读 其 详细 内 容 。 之 后 

尔 可 以 使 用 第 5 章 中 的 方法 对 你 的 模型 进行 评估 和 调 参 。 


在 线 资源 
在 学 习 本 书 时 ， 一 定 要 参考 scikit-learn 官方 网 站 (http:/scikit-learn.org) ， 查 阅 关 于 类 和 
国 数 的 更 详细 的 文档 ， 以 及 很 多 示例 。 此 外 ，Andreas Miller 创建 的 视频 课程 “scikit-learn 
高 等 机 器 学 习 ”(Advanced Machine Learning with scikit-learn) 可 以 作为 本 书 的 补充 材料 。 
你 可 以 在 http://shop.oreilly.com/product/0636920043836.do 观看 该 课程 。 


排版 约定 

本 书 使 用 了 下 列 排版 约定 。 

。 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 

。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 字 等 。 也 用 于 表示 命令 、 模 块 和 包 的 名 称 。 


。 加 粗 等 宽 字 体 (constant width bold) 
表示 需要 用 户 逐 字 输 入 的 命令 或 其 他 文本 。 
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Dll 


。 等 宽 和 斜体 (constant width italic) 
表示 应 替换 成 用 户 输入 的 值 ， 或 替换 成 根据 上 下 文 确定 的 值 。 


该 图 标 表示 提示 或 建议 。 


该 图 标 表示 一 般 性 说 明 。 





该 图 标 表示 警告 或 警示 。 


使 用 代码 示例 


补充 材料 (代码 示例 、IPython notebook 等 ) 可 以 在 https://github.com/amueller/introduction_ 
to_ml_with_python 下 载 。 

本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 和 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 。 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 。 引 用 本 书 中 的 示例 代码 来 回答 问题 无 需 获得 许可 。 将 书 中 大 量 示例 代码 放 到 你 
的 产品 文档 中 则 需要 获得 许可 。 
如 有 果 你 在 引用 本 书 内 容 时 注 明 出 处 ， 我 们 将 不 胜 感激 ， 但 这 并 非 强 制 要 求 。 引 用 说 明 一 般 
包括 书 名 、 作 者 、 出 版 社 和 JSBN。 比 如 : “An Introduction to Machine Learning with Python 
by Andreas C. Miiller and Sarah Guido (O’Reilly). Copyright 2017 Sarah Guido and Andreas 
Miller, 978-1-449-36941-5.” 


如 果 你 认为 自己 对 代码 示例 的 用 法 超出 了 合理 使 用 的 范围 或 上 述 许可 的 范围 ， 敬 请 通过 
permissions@oreilly.com 与 我 们 联系 。 





























Safari2 Books Online 


。” Safari Books Online 是 应 运 而 生 的 数字 图 书馆 ， 它 同时 以 图 书 和 视 
Safa 站 | 频 的 形式 出 版 世界 顶级 技术 和 商业 作家 的 专业 作品 。 











技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问 
题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获 取 资 料 的 首选 渠道 。 

对 于 企业 、 政 府 、 教 育 机 构 和 个 人 ，Safari Books Online 都 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 

用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media、Prentice Hall Professional、 
Addison-Wesley Professional、 Microsoft Press、 Sams、Que、Peachpit Press、Focal Press、 








Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、 IBM Redbooks、 Packt.、 
Adobe Press、 FT Press、 Apress、 Manning、New Riders、McGraw-Hill、Jones & Bartlett、 
Course Technology 等 数 百 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正式 出 版 之 前 的 书稿 。 要 了 
解 Safari Books Online 的 更 多 信息 ， 请 访问 我 们 的 网 站 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 


O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 

中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 


我 们 为 本 书 创建 了 一 个 网 页 ， 在 上 面 列 出 了 本 书 的 勘误 表 、 示 例 以 及 其 他 信息 。 本 书 的 网 
站 地 址 是 : http://shop.oreilly.com/product/0636920030515.do。 


如 果 你 想 就 本 书 发 表 评论 或 技术 性 问题 ， 请 发 送 电 子 邮 件 到 bookquestions@oreilly.com。 
想 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 我 们 的 网 站 : 


http://www.oreilly.com.。 
我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 
















































































我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 
致谢 
来 自 Andreas 的 致谢 


如 果 没 有 许多 人 的 帮助 和 支持 ， 本 书 永远 不 会 出 版 。 
我 要 感谢 本 书 编辑 Meghan Blanchette 和 Brian MacDonald， 特 别 是 Dawn Schanafelt， 感 谢 
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他 们 帮助 我 和 Sarah 共同 完成 这 本 书 。 

我 要 感谢 我 的 审 稿 人 Thomas Caswell、Olivier Grisel、Stefan van der Walt 和 John Myles 
White， 感 谢 他 们 花费 时 间 阅 读本 书 的 早期 版 本 ， 并 提供 宝贵 的 反馈 意见 。 这 些 意见 也 成 
为 了 科学 计算 开源 生态 系统 的 基石 。 
我 永远 感谢 热情 的 Python 科学 计算 开源 社区 ， 特 别 要 感谢 scikit-learn 的 贡献 者 们 。 如 
果 没 有 这 个 社区 的 支持 和 帮助 ， 特 别 是 Gael Varoquaux、Alex Gramfort 和 Olivier Grisel 的 
支持 和 帮助 ， 我 永远 无 法 成 为 scikit-learn 的 核心 贡献 者 ， 也 无 法 像 现 在 这 样 对 这 个 包 有 
如 此 深刻 的 理解 。 我 还 要 感谢 scikit-tearn 的 其 他 所 有 贡献 者 ， 他 们 花费 了 大 量 时 间 改 进 
并 维护 这 个 包 。 

我 还 要 感谢 与 我 讨论 的 许多 同事 和 同行 。 这 些 谈话 帮助 我 理解 了 机 器 学 习 的 挑战 ， 并 让 我 
产生 构思 一 本 教科 书 的 想法 。 我 与 许多 人 讨论 过 机 器 学 习 ， 但 我 要 特别 感谢 其 中 的 Brian 
McFee、 Daniela Huttenkoppen、 Joel Nothman、 Gilles Louppe、Hugo Bowne-Anderson、 












































Sven Kreis、 Alice Zheng、 Kyunghyun Cho、Pablo Baberas 和 Dan Cervone。 

我 还 要 感谢 Rachel Rakov， 她 对 本 书 的 早期 版 本 做 了 许多 热心 的 测试 和 校对 工作 ， 在 成 
过 程 中 给 了 我 很 多 帮助 。 

就 个 人 来 说 ， 我 要 感谢 我 的 父母 Harald 和 Margot， 还 有 我 的 姐姐 Miriam， 感 谢 他 们 持续 
给 予 我 的 支持 和 鼓励 。 我 还 要 感谢 生命 中 的 许多 人 ， 他 们 的 爱 和 友谊 给 我 能 量 ， 支 持 我 完 
成 这 项 富有 挑战 性 的 任务 。 


来 自 Sarah 的 致谢 


我 要 感谢 Meghan Blanchette， 没 有 她 的 帮助 和 指导 ， 甚 至 就 不 会 有 本 项 目的 存在 。 感 谢 
Celia La 和 Brian Carlson 早期 对 本 书 的 审阅 。 感 谢 O'Reilly 工作 人 员 无 尽 的 耐心 。 最 后 ， 
感谢 DTS， 感 谢 你 永恒 不 变 的 支持 。 


电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 
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机 器 学 习 (machine learning) 是 从 数据 中 提取 知识 。 它 是 统计 学 、 人 工 智能 和 计算 机 
科学 交叉 的 研究 领域 ， 也 被 称 为 预测 分 析 (predictive analytics) 或 统计 学 习 (statistical 
learning)。 近 年 来 ， 机 器 学 习 方 法 已 经 应 用 到 日 常生 活 的 方方面面 。 从 自动 推荐 看 什么 电 
影 、 点 什么 食物 、 买 什么 商品 ， 到 个 性 化 的 在 线 电台 和 从 照片 中 识别 好 友 ， 许 多 现代 化 网 
站 和 设备 的 核心 都 是 机 器 学 习 算 法 。 当 你 访问 像 Facebook、Amazon 或 Netflix 这 样 的 复杂 
网 站 时 ， 很 可 能 网 站 的 每 一 部 分 都 包含 多 种 机 器 学 习 模 型 。 


除了 商业 应 用 之 外 ， 机 器 学 习 也 对 当前 数据 驱动 的 研究 方法 产生 了 很 大 影响 。 本 书 中 介绍 
的 工具 均 已 应 用 在 各 种 科学 问题 上 ， 比 如 研究 恒星 、 寻 找 遥 远 的 行星 、 发 现 新 粒子 、 分 析 
DNA 序列 ， 以 及 提供 个 性 化 的 癌症 治疗 方案 。 


不 过 ， 如 果 想 受益 于 机 器 学 习 算 法 ， 你 的 应 用 无 需 像 上 面 那些 例子 那样 给 世界 带 来 重大 改 
变 ， 数 据 量 也 用 不 着 那么 大 。 本 章 将 解释 机 器 学 习 如 此 流行 的 原因 ， 并 探讨 机 器 学 习 可 以 
解决 哪些 类 型 的 问题 。 然 后 将 向 你 展示 如 何 构建 第 一 个 机 器 学 习 模 型 ， 同 时 介绍 一 些 重要 
的 概念 。 


1.1 为 何 选择 机 器 学 习 


在 “智能 ”应 用 的 早期 ， 许 多 系统 使 用 人 为 制订 的 “这 ”和 “else” 决 策 规则 来 处 理 数据 ， 
或 根据 用 户 输入 的 内 容 进 行 调整 。 想 象 有 一 个 垃圾 邮件 过 滤器 ， 其 任务 是 酌情 将 收 到 的 茶 
些 邮件 移动 到 垃圾 邮件 文件 来。 你 可 以 创建 一 个 关键 词 黑 名 单 ， 所 有 包含 这 些 关 键 词 的 邮 
件 都 会 被 标记 为 垃圾 邮件 。 这 是 用 专家 设计 的 规则 体系 来 设计 “智能 ”应 用 的 一 个 示例 。 
人 为 制订 的 决策 规则 对 某 些 应 用 来 说 是 可 行 的 ， 特 别 是 人 们 对 其 模型 处 理 过 程 非常 熟悉 的 
应 用 。 但 是 ， 人 为 制订 决策 规则 主要 有 两 个 缺点 。 




























































































。 做 决策 所 需要 的 逻辑 只 适用 于 单一 领域 和 单项 任务 。 任 务 哪 怕 稍 有 变化 ， 都 可 能 需要 重 


写 整个 系统 。 
。 想 要 制订 规则 ， 需 要 对 人 类 专家 的 决策 过 程 有 很 深刻 的 理解 。 


这 种 人 为 制订 规则 的 方法 并 不 适用 的 一 个 例子 就 是 图 像 中 的 人 脸 检测 。 如 今 ， 每 台 智能 手 
机 都 能 够 检测 到 图 像 中 的 人 脸 。 但 直到 2001 年 ， 人 脸 检测 问题 才 得 到 解决 。 其 主要 问题 
在 于 ， 计 算 机 “感知 ”像素 〈 像 素 组 成 了 计算 机 中 的 图 像 ) 的 方式 与 人 类 感知 面部 的 方式 
有 非常 大 的 不 同 。 正 是 由 于 这 种 表征 差异 ， 人 类 想 要 制订 出 一 套 好 的 规则 来 描述 数字 图 像 
中 的 人 脸 构 成 ， 基 本 上 是 不 可 能 的 。 


但 有 了 机 器 学 习 算 法 ， 仪 向 程序 输入 海量 人 脸 图 像 ， 就 足以 让 算法 确定 识别 人 脸 需 要 哪些 
特征 。 


1.1.1 机 器 学 习 能 够 解决 的 问题 

最 成 功 的 机 器 学 习 算法 是 能 够 将 决策 过 程 自动 化 的 那些 算法 ， 这 些 决策 过 程 是 从 已 知 示例 
中 泛 化 得 出 的 。 在 这 种 叫 作 监督 学 习 (supervised learning) 的 方法 中 ， 用 户 将 成 对 的 输入 
和 预期 输出 提供 给 算法 ， 算 法 会 找到 一 种 方法 ， 根 据 给 定 输入 给 出 预期 输出 。 尤 其 是 在 没 
有 人 类 帮助 的 情况 下 ， 给 定 前 所 未 见 的 输入 ， 算 法 也 能 够 给 出 相应 的 输出 。 回 到 前 面 垃圾 
邮件 分 类 的 例子 ， 利 用 机 器 学 习 算 法 ， 用 户 为 算法 提供 大 量 电子 邮 件 (作为 输入 )， 以 及 
这 些 邮 件 是 否 为 垃圾 邮件 的 信息 (作为 预期 输出 )。 给 定 一 封 新 邮件 ， 算 法 就 能 够 预测 它 
是 否 为 垃圾 邮件 。 


从 输入 /输出 对 中 进行 学 习 的 机 器 学 习 算 法 叫 作 监督 学 习 算法 (supervised leaming algorithm)， 
因为 每 个 用 于 算法 学 习 的 样 例 都 对 应 一 个 预期 输出 ， 好 像 有 一 个 “老师 ”在 监督 着 算法 。 虽 然 
创建 一 个 包含 输入 和 输出 的 数据 集 往往 费时 又 费力 ,但 监督 学 习 算法 很 好 理解 ， 其 性 能 也 易于 
测量 。 如 果 你 的 应 用 可 以 表示 成 一 个 监督 学 习 问 题 ， 并 且 你 能 够 创建 包含 预期 输出 的 数据 集 ， 
那么 机 器 学 习 很 可 能 可 以 解决 你 的 问题 。 


监督 机 器 学 习 任务 的 示例 如 下 。 

识别 信封 上 手写 的 邮政 编码 
这 里 的 输入 是 扫描 的 手写 数字 ， 预 期 输出 是 邮政 编码 中 的 实际 数字 。 想 要 创建 用 于 构建 
机 器 学 习 模型 的 数据 集 ， 你 需要 收集 许多 信封 。 然 后 你 可 以 自己 阅读 邮政 编码 ， 将 数字 
保存 为 预期 输出 。 

基于 医学 影像 判断 肿瘤 是 否 为 良性 
这 里 的 输入 是 影像 ， 输 出 是 肿瘤 是 否 为 良性 。 想 要 创建 用 于 构建 模型 的 数据 集 ， 你 需要 
一 个 医学 影像 数据 库 。 你 还 需要 咨询 专家 的 意见 ， 因 此 医生 需要 查看 所 有 影像 ， 然 后 判 
断 哪 些 肿 瘤 是 良性 的 ， 哪 些 不 是 良性 的 。 除 了 影像 内 容 之 外 ， 甚 至 可 能 还 需要 做 额外 的 
诊断 来 判断 影像 中 的 肿瘤 是 否 为 癌变 。 

检测 信用 卡 交易 中 的 诈骗 行为 
这 里 的 输入 是 信用 卡 交易 记录 ， 输 出 是 该 交易 记录 是 否 可 能 为 诈骗 。 假 设 你 是 信用 卡 的 发 
行 单 位 ， 收 集 数 据 集 意味 着 需要 保存 所 有 的 交易 ， 并 记录 用 户 是 否 上 报 过 任何 诈骗 交易 。 
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在 这 些 例子 中 需要 注意 一 个 有 趣 的 现象 ， 就 是 虽然 输入 和 输出 看 起 来 相当 简单 ， 但 三 个 例 
子 中 的 数据 收集 过 程 却 大 不 相同 。 阅 读 信封 虽然 很 辛苦 ， 却 非常 简单 ， 也 不 用 花 多 少 钱 。 
与 之 相反 ， 和 获取 医 学 影像 和 诊断 不 仅 需要 昂贵 的 设备 ， 还 需要 稀有 又 昂贵 的 专家 知识 ， 更 
不 要 说 伦理 问题 和 隐私 问题 了 。 在 检测 信用 卡 诈骗 的 例子 中 ， 收 集 数据 要 容易 得 多 。 你 的 
顾客 会 上 报 诈骗 行为 ， 从 而 为 你 提供 预期 输出 。 要 获取 所 有 欺诈 行为 和 非 欺 诈 行为 的 输入 / 
输出 对 ， 你 只 需 等 待 即 可 。 


本 书 会 讲 到 的 另 一 类 算法 是 无 监督 学 习 算 法 (unsupervised learning algorithm)。 在 无 监督 
学 习 中 ， 只 有 输入 数据 是 已 知 的 ， 没 有 为 算法 提供 输出 数据 。 虽 然 这 种 算法 有 许多 成 功 的 
应 用 ,但 理解 和 评估 这 些 算法 往往 更 加 困难 。 
无 监督 学 习 的 示例 如 下 。 


确定 一 系列 博客 文章 的 主题 
如 果 你 有 许多 文本 数据 ， 可 能 想 对 其 进行 汇总 ， 并 找到 其 中 共同 的 主题 。 事 先 你 可 能 并 
不 知道 都 有 哪些 主题 ， 或 者 可 能 有 多 少 个 主题 。 所 以 输出 是 未 知 的 。 


将 客户 分 成 具有 相似 偏好 的 群 组 
给 定 一 组 客户 记录 ， 你 可 能 想 要 找 出 哪些 客户 比较 相似 ， 并 判断 能 否 根据 相似 偏好 对 这 
些 客户 进行 分 组 。 对 于 一 家 购物 网 站 来 说 ， 客 户 分 组 可 能 是 “父母 ”“ 书 虫 ”或 “游戏 
玩家 ”。 由 于 你 事先 并 不 知道 可 能 有 哪些 分 组 ， 其 至 不 知道 有 多 少 组 ， 所 以 并 不 知道 输 
出 是 什么 。 
检测 网 站 的 异常 访问 模式 
想 要 识别 网 站 的 滥用 或 bug， 找 到 异常 的 访问 模式 往往 是 很 有 用 的 。 每 种 异常 访问 模式 
都 互 不 相同 ， 而 且 你 可 能 没有 任何 记录 在 案 的 异常 行为 示例 。 在 这 个 例子 中 你 只 是 观察 
流量 ， 并 不 知道 什么 是 正常 访问 行为 和 异常 访问 行为 ， 所 以 这 是 一 个 无 监督 学 习 问 题 。 
无 论 是 监督 学 习 任务 还 是 无 监督 学 习 任 务 ， 将 输入 数据 表征 为 计算 机 可 以 理解 的 形式 都 是 
十 分 重要 的 。 通 常 来 说 ， 将 数据 想象 成 表格 是 很 有 用 的 。 你 想 要 处 理 的 每 一 个 数据 点 (每 
一 封 电 子 邮件 、 每 一 名 客户 、 每 一 次 交易 ) 对 应 表格 中 的 一 行 ， 描 述 该 数据 点 的 每 一 项 属 
性 (比如 客户 年 龄 、 交 易 金 额 或 交易 地 点 ) 对 应 表格 中 的 一 列 。 你 可 能 会 从 年 龄 、 性 别 、 
账号 创建 时 间 、 在 你 的 购物 网 站 上 的 购买 频率 等 方面 来 描述 用 户 。 你 可 能 会 用 每 一 个 像素 
的 灰 度 值 来 描述 肿瘤 图 像 ， 也 可 能 利用 肿瘤 的 大 小 、 形 状 和 颜色 进行 描述 。 


在 机 器 学 习 中 ， 这 里 的 每 个 实体 或 每 一 行 被 称 为 一 个 样本 (sample) 或 数据 点 ， 而 每 一 列 
(用 来 描述 这 些 实体 的 属性 ) 则 被 称 为 特征 (feature ) 。 


本 书后 面 会 更 详细 地 介绍 如 何 构 建 良好 的 数据 表征 ， 这 被 称 为 特征 提取 (feature 
extraction) 或 特征 工程 (feature engineering)。 但 你 应 该 记 住 ， 如 果 没 有 数据 信息 的 话 ， 所 
有 机 器 学 习 算 法 都 无 法 做 出 预测 。 举 个 例子 ， 如 果 你 只 有 病人 的 姓氏 这 一 个 特征 ， 那 么 任 
何 算法 都 无 法 预测 其 性 别 。 这 一 信息 并 未 包含 在 数据 中 。 如 果 你 添加 另 一 个 特征 ， 里 面包 
含 病人 的 名 字 ， 那 么 你 预测 正确 的 可 能 性 就 会 变 大 ， 因 为 通过 一 个 人 的 名 字 往 往 可 以 判断 
其 性 别 。 






























































































































































1.1.2 ”熟悉 任务 和 数据 


在 机 器 学 习 过 程 中 ， 最 重要 的 部 分 很 可 能 是 理解 你 正在 处 理 的 数据 ， 以 及 这 些 数据 与 你 想 
要 解决 的 任务 之 间 的 关系 。 随 机 选择 一 个 算法 并 将 你 的 数据 输入 进去 ， 这 种 做 法 是 不 会 有 
什么 用 的 。 在 开始 构建 模型 之 前 ， 你 需要 理解 数据 集 的 内 容 。 每 一 种 算法 的 输入 数据 类 型 
和 最 适合 解决 的 问题 都 是 不 一 样 的 。 在 构建 机 器 学 习 解 决 方案 的 过 程 中 ， 你 应 该 给 出 下 列 
问题 的 答案 ， 或 者 至 少 要 将 这 些 问题 记 在 脑 中 。 


。 我 想 要 回答 的 问题 是 什么 ?已 经 收集 到 的 数据 能 够 回答 这 个 问题 吗 ? 

。 要 将 我 的 问题 表示 成 机 器 学 习 问 题 ， 用 哪 种 方法 最 好 ? 

。 我 收集 的 数据 是 否 足够 表达 我 想 要 解决 的 问题 ? 

。 我 提取 了 数据 的 哪些 特征 ?这 些 特征 能 否 实现 正确 的 预测 ? 

。 如 何 衡 量 应 用 是 否 成 功 ? 

。 机 器 学 习 解 决 方案 与 我 的 研究 或 商业 产品 中 的 其 他 部 分 是 如 何 相互 影响 的 ? 

从 更 大 的 层面 来 看 ， 机 器 学 习 算 法 和 方法 只 是 解决 特定 问题 的 过 程 中 的 一 部 分 ， 一 定 要 始 
终 牢 记 整 个 项 目的 大 局 。 许 多 人 浪费 大 量 时 间 构 建 复杂 的 机 器 学 习 解 决 方案 ， 最 终 却 发 现 
没有 解决 正确 的 问题 。 

当 深 入 研究 机 器 学 习 的 技术 细节 时 (本 书 会 讲 到 这 些 细节 )， 很 容易 忽视 最 终 目标 。 我 们 
虽然 不 会 详细 讨论 上 面 列 出 的 问题 ， 但 仍然 总 励 你 记 住 自 己 在 开始 构建 机 器 学 习 模 型 时 做 
出 的 假设 ， 无 论 是 明确 的 还 是 隐 含 的 假设 。 


1.2 为 何 选择 Python 


Python 已 经 成 为 许多 数据 科学 应 用 的 通用 语言 。 它 既 有 通用 编程 语言 的 强大 功能 ， 也 有 特 
定 领域 脚本 语言 (比如 MATLAB 或 R) 的 易 用 性 。Python 有 用 于 数据 加 载 、 可 视 化 、 统 
计 、 自 然 语言 处 理 、 图 像 处 理 等 各 种 功能 的 库 。 这 个 大 型 工具 箱 为 数据 科学 家 提供 了 大 量 
的 通用 功能 和 专用 功能 。 使 用 Python 的 主要 优点 之 一 ， 就 是 利用 终端 或 其 他 类 似 Jupyter 
Notebook 的 工具 能 够 直接 与 代码 进行 交互 ;我 们 很 快 会 讲 到 Jupyter Notebook。 机 器 学 习 
和 数据 分 析 本 质 上 都 是 进 代 过 程 ， 由 数据 驱动 分 析 。 这 些 过 程 必须 要 有 快速 欠 代 和 易于 交 
互 的 工具 。 


作为 通用 编程 语言 ，Python 还 可 以 用 来 创建 复杂 的 图 形 用 户 界面 (graphical user interface， 
GUI) 和 Web 服务 ， 也 可 以 集成 到 现 有 系统 中 。 









































































































































1.3 scikit-learn 











scikit-learn 是 一 个 开源 项 目 ， 可 以 免费 使 用 和 分 发 ， 任 何人 都 可 以 轻松 获取 其 源 代 码 来 
查看 其 背后 的 原理 。scikit-tLearn 项 目 正在 不 断 地 开发 和 改进 中 ， 它 的 用 户 社 区 非常 活 
跃 。 它 包含 许多 目前 最 先进 的 机 器 学 习 算 法 ， 每 个 算法 都 有 详细 的 文档 (http://scikit-learn. 
org/stable/documentation)。scikit-learn 是 一 个 非常 流行 的 工具 ， 也 是 最 有 名 的 Python 机 
器 学 习 库 。 它 广泛 应 用 于 工业 界 和 学 术 界 ， 网 上 有 大 量 的 教程 和 代码 片段 。scikit-learn 
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也 可 以 与 其 他 大 量 Python 科学 计算 工具 一 起 使 用 ， 本 章 后 面 会 讲 到 相关 内 容 。 


在 阅读 本 书 的 过 程 中 ， 我 们 建议 你 同时 浏览 scikit-learn 用 户 指南 (http://scikit-learn.org/ 
stable/user_guide.html) 和 API 文档， 里 面 给 出 了 每 个 算法 的 更 多 细节 和 更 多 选项 。 在 线 文 
档 非常 全 面 ， 而 本 书 会 介绍 机 器 学 习 的 所 有 必 备 知识 ， 以 便于 你 深入 了 解 。 























安装 scikit-learn 


scikit-learn 依赖 于 另外 两 个 Python 包 : NumPy 和 SciPy。 若 想 绘 图 和 进行 交互 式 开 发 ， 

还 应 该 安装 matplotlib、IPython 和 Jupyter Notebook。 我 们 推荐 使 用 下 面 三 个 预先 打包 的 

Python 发 行 版 之 一 ， 里 面 已 经 装 有 必要 的 包 。 

Anaconda (https://store.continuum.io/cshop/anaconda/) 
用 于 大 规模 数据 处 理 、 预 测 分 析 和 科学 计算 的 Python 发 行 版 。Anaconda 已 经 预先 安装 
好 NumPy、SciPy、matplotlib、pandas、IPython、Jupyter Notebook 和 scikit-learn。 
它 可 以 在 Mac OS、Windows 和 Linux 上 运行 ， 是 一 种 非常 方便 的 解决 方案 。 对 于 尚未 
安装 Python 科学 计算 包 的 人 ， 我 们 建议 使 用 Anaconda。Anaconda 现在 还 免费 提供 商用 
的 mtel MKL 库 。MKL (在 安装 Anaconda 时 自动 安装 ) 可 以 使 scikit-learn 中 许多 算 
法 的 速度 大 大 提升 。 

Enthought Canopy (https://www.enthought.com/products/canopy/) 
用 于 科学 计算 的 另 一 款 Python 发 行 版 。 它 已 经 预先 装 有 NumPy、SciPy、matplotlib、 
pandas 和 IPython， 但 免费 版 没有 预先 安装 scikit-learn。 如 果 你 是 能 够 授予 学 位 的 
学 术 机 构 的 成 员 ， 可 以 申请 学 术 许 可 ， 免 费 使 用 Enthought Canopy 的 付费 订阅 版 。 
Enthought Canopy 适用 于 Python 2.7.x， 可 以 在 Mac OS、Windows 和 Linux 上 运行 。 











Python(x,y) (http://python-xy.github.io/) 
专门 为 Windows 打造 的 Python 科学 计算 免费 发 行 版 。Python(x,y) 已 经 预先 装 有 NumPy、 
SciPy、 matplotlib、pandas、IPython 和 scikit-learn。 

如 果 你 已 经 安装 了 Python， 可 以 用 pip 安装 上 述 所 有 包 : 


$ pip install numpy scipy matplotlib ipython scikit-learn pandas 


1.4 必要 的 库 和 工具 


了 解 scikit-learn 及 其 用 法 是 很 重要 的 ， 但 还 有 其 他 一 些 库 也 可 以 改善 你 的 编程 体验 。 
scikit-learn 是 基于 NumPy 和 SciPy 科学 计算 库 的 。 除 了 NumPy 和 SciPy， 我 们 还 会 
到 pandas 和 matplotlib。 我 们 还 会 介绍 Jupyter Notebook， 一 个 基于 浏览 器 的 交互 编程 环 
境 。 简 单 来 说 ， 对 于 这 些 工具 ， 你 应 该 了 解 以 下 内 容 ， 以 便 充分 利用 scikit-Learn。 





























注 1: 你 如 果 不 熟悉 NumPy 或 matpLottLib ,我 们 推荐 阅读 SciPy 讲稿 (http://www.scipy-lectures.org/) 的 第 1 章 。 








1.4.1 Jupyter Notebook 


Jupyter Notebook 是 可 以 在 浏览 器 中 运行 代码 的 交互 环境 。 这 个 工具 在 探索 性 数据 分 析 方 面 
非常 有 用 ， 在 数据 科学 家 中 广 为 使 用 。 虽 然 Jupyter Notebook 支持 多 种 编程 语言 ， 但 我 们 
只 需要 支持 Python 即 可 。 用 Jupyter Notebook 整合 代码 、 文 本 和 图 像 非 常 方便 ， 实 际 上 本 
书 所 有 内 容 都 是 以 Jupyter Notebook 的 形式 进行 编写 的 。 所 有 代码 示例 都 可 以 在 GitHub 下 
载 (https://github.com/amueller/introduction_to_ml_with_python)。 























1.4.2 NumPy 


NumPy 是 Python 科学 计算 的 基础 包 之 一 。 它 的 功能 包括 多 维 数组 、 高 级 数学 函数 (比如 
线性 代数 运算 和 傅 里 叶 变 换 )， 以 及 伪 随 机 数 生成 器 。 


在 scikit-learn 中 ，NumPy 数组 是 基本 数据 结构 。scikit-learn 接受 NumPy 数组 格式 的 
数据 。 你 用 到 的 所 有 数据 都 必须 转换 成 NumPy 数组 。NumPy 的 核心 功能 是 ndarray 类 ， 
即 多 维 (n 维 ) 数组 。 数 组 的 所 有 元 素 必 须 是 同一 类 型 。NumPy 数组 如 下 所 示 : 


In[2]: 
import numpy as np 
x = np.array([[1, 2, 3], [4, 5, 6]]) 
print("x:\n{}".format(x)) 














Out[2]: 

x 
[[1 2 3] 
[4 5 6]] 


本 书 会 经 常用 到 NumPy。 对 于 NumPy ndarray 类 的 对 象 ， 我 们 将 其 简称 为 “NumPy 数组 ” 




















1.4.3 SciPy 


SciPy 是 Python 中 用 于 科学 计算 的 函数 集合 。 它 具有 线性 代数 高 级 程序 、 数 学 函数 优化 、 
信号 处 理 、 特 殊 数学 函数 和 统计 分 布 等 多 项 功能 。scikit-learn 利用 SciPy 中 的 函数 集 
合 来 实现 算法 。 对 我 们 来 说 ，SciPy 中 最 重要 的 是 scipy.sparse: 它 可 以 给 出 稀 朴 和 矩阵 
(sparse matrice) ， 稀 玻 和 矩阵 是 scikit-learn 中 数据 的 另 一 种 表示 方法 。 如 果 想 保存 一 个 大 
部 分 元 素 都 是 0 的 二 维 数 组 ， 就 可 以 使 用 稀 政 矩阵 : 


In[3]: 
from scipy import sparse 








# 创建 一 个 二 维 NumPy 数 组 ， 对 角 线 为 1， 其 余 都 为 9 
eye = np.eye(4) 
print("NumPy array:\n{}".format(eye)) 


Out[3] : 
NumPy array : 
EL. 202 9070 这 
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[60. 1. 0 
[60. 0. 1. 0. 
[ 0. 1 


In[4]: 


# 将 Numpy 数 组 转换 为 CSR 格 式 的 Scipy 稀 政 和 矩阵 





# 只 保存 非 零 元 素 


sparse_matrix = sparse.csr_matrix(eye) 
print("\nScipy sparse CSR matrix:\n{}".format(sparse_matrix)) 


Out[4] : 
SciPy sparse CSR matrix: 
(0，0) 





通常 来 说 ， 创 建 稀疏 数据 的 稠密 表示 (dense representation) 是 不 可 能 
存 )， 所 以 我 们 需要 直接 创建 其 稀 玻 表示 (sparse representation ) 。 
稀 玻 矩阵 的 方法 ， 用 的 是 COO 格式 : 








In[5]: 
data = np.ones(4) 
row_indices = np.arange(4) 
col_indices = np.arange(4) 


eye_coo = sparse.coo matrix((data, (row_indices, col_indices))) 
print("C00 representation:\n{}".format(eye_coo)) 


Out[5]: 
C00 representation: 
(0, 0) 1.0 
(1, 1) 1.0 
(2 2) 1.0 
(3, 3) 1.0 














的 (因为 太 浪 费 内 
给 出 的 是 创建 同一 





关于 SciPy 稀疏 矩阵 的 更 多 内 容 可 查阅 SciPy 讲稿 (http://www.scipy-lectures.org/)。 


1.4.4 matplotlib 


matplotlib 是 Python 主 2 的 科学 绘图 库 ， 其 








能 为 生成 可 发 布 的 可 视 化 内 容 ， 如 折 














线 图 、 直 方 图 、 散 点 图 等 和 可 以 让 你 产生 深刻 的 理解 ， 而 














我 们 将 用 matplotlib 完 有 成 所 有 的 可 视 化 内 容 。 在 Jupyter Notebook 中 ， 
%matplotlib notebook 和 %matpLotLib inline 命令 ， 将 图 
它 可 以 提供 交互 环境 (虽然 在 写作 本 
%matplotlib inline)。 举 个 例子 ， 下 列 代码 会 生成 医 


荐 使 用 %matplotlib notebook 命令 ， 


In[6]: 
%matplotlib inline 


import matplotlib.pyplot as plt 


# 在 -10 和 16 之 间 生 成 一 个 数列 ， 共 1906 个 数 


像 直接 显示 在 浏 














你 可 以 使 用 


览 器 中 。 我 们 推 





区 时 我 们 用 的 是 


























x = np.Linspace(-10，10，100) 

# 用 正弦 函数 创建 第 二 个 数组 

y = np.sin(x) 

# pLot 国 数 绘制 一 个 数组 关于 另 一 个 数组 的 折线 图 
plt.plot(x, y, marker="x") 
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1-1: 用 matplotlib 画 出 正 该 函数 的 简单 折线 图 


1.4.5 pandas 





pandas 是 用 于 处 理 和 分 析 数 据 的 Python 库 。 它 基于 一 种 叫 作 DataFrame 的 数据 结构 ， 这 
种 数据 结构 模仿 了 R 语言 中 的 DataFrame。 简 单 来 说 ， 一 个 pandas DataFrame 是 一 张 表 
格 ， 类 似 于 Excel 表格 。pandas 中 包含 大 量 用 于 修改 表格 和 操作 表格 的 方法 ， 尤 其 是 可 
以 像 SQL 一 样 对 表格 进行 查询 和 连接 。NumPy 要 求 数组 中 的 所 有 元 素 类 型 必须 完全 相 











同 ， 而 pandas 不 是 这 样 ， 每 一 列 数据 的 类 型 可 以 互 不 相同 〈 比 如 整 型 、 日 期 、 
符 串 )。pandas 的 另 一 个 强大 之 处 在 于 ， 它 可 以 从 许多 文件 格式 和 数据 库 中 提取 数据 ， 如 
SQL、Excel 文件 和 逼 号 分 隔 值 (CSV) 文件 。pandas 的 详细 功能 介绍 已 经 超出 了 本 书 的 
































序 点 数 和 字 














范围 。 但 Wes McKinney 的 《Python 数据 处 理 》? 一 书 是 很 好 的 参考 指南 。 下 硬 


创建 DataFrame 的 一 个 小 例子 : 


In[7]: 
import pandas as pd 
from IPython.display import display 





# 创建 关于 人 的 简单 数据 集 





data = {'Name': ["John", "Anna", "Peter", "Lin 
'Location' : ["New York", "Paris", "Be 
'Age' : [24, 13, 53, 33] 


} 


data_pandas = pd.DataFrame(data) 
# IPython.display 可 以 在 Jupyter Notebook 中 打 旬 
display(data_pandas) 





























注 2: 该 书 已 由 人 民 邮 电 H 


EE 
也 
| ei = 
EE 




















社 出 版 ， 详 见 http://www.ituring.com.cn/book/1819。 一 一 编者 注 








i 是 利用 字典 





da"], 
rlin", "London"], 


“美观 的 ”DataFrame 








上 述 代 码 的 输出 如 下 : 





Age Location Name 
0 24 New York John 
1 13 Paris Anna 
2 53 Berlin Peter 
3 33 London Linda 


查询 这 个 表格 的 方法 有 很 多 种 。 举 个 例子 : 


In[8]: 


# 选择 年 龄 大 于 36 的 所 有 行 
dispLay(data_pandas[data_pandas.Age > 30]) 








输出 结果 如 下 : 

Age Location Name 
和 2 53 Berlin Peter 
3 33 London Linda 


1.4.6 mglearn 


本 书 的 附加 代码 可 以 在 GitHub 下 载 (https://github.com/amueller/introduction_to_ml_with_ 
python) 。 附 加 代码 不 仅 包括 本 书 中 的 所 有 示例 ， 还 包括 mglearn 库 。 这 是 我 们 为 本 书 编写 
的 实用 函数 库 ， 以 免 将 代码 清单 与 绘图 和 数据 加 载 的 细 市 混在 一 起 。 感 兴趣 的 话 ， 你 可 以 
查看 仓库 中 的 所 有 函数 ， 但 mglearn 模块 的 细节 并 不 是 本 书 的 重点 。 如 果 你 在 代码 中 看 到 
了 对 mglearn 的 调用 ， 通 常 是 用 来 快速 美化 绘图 ， 或 者 用 于 获取 一 些 有 趣 的 数据 。 


本 书 会 频繁 使 用 NumPy、matplotlib 和 pandas。 所 有 代码 都 默认 导入 了 这 
些 库 : 






































import numpy as np 

import matplotlib.pyplot as plt 
import pandas as pd 

import mglearn 





我 们 还 假设 你 在 Jupyter Notebook 中 运行 代码 ， 并 使 用 %matplotlib notebook 或 
%matplotlib inLine 魔法 命令 来 显示 图 人像。 如果 你 没有 使 用 Jupyter Notebook 或 
这 些 魔法 命令 ， 那 么 就 需要 调用 plt.show 来 显示 图 像 。 

















1.5 ”Python 2 与 Python 3 的 对 比 


目前 Python 主要 有 两 大 版 本 广 为 使 用 : Python 2 (更 确切 地 说 是 Python 2.7) 和 了 Python 3 
(写作 本 书 时 的 最 新 版 本 是 Python 3.5)。 有 时 这 会 造成 一 些 混乱 。Python 2 已 经 停止 开发 ， 
但 由 于 Python 3 包含 许多 重大 变化 ， 所 以 Python 2 的 代码 通常 无 法 在 Python 3 中 运行 。 如 
果 你 是 Python 新 手 ， 或 者 要 从 头 开 发 一 个 新 项 目 ， 我 们 强烈 推荐 使 用 最 新 版 本 的 Python 3， 
你 无 需 做 任何 更 改 。 如 果 你 要 依赖 一 个 用 Python 2 编写 的 大 型 代码 库 ， 可 以 暂时 不 升级 。 














但 你 应 该 尽快 迁移 到 Python 3。 在 编写 任何 新 代码 时 ， 想 要 编写 能 够 在 Python 2 和 Python 
3 中 同时 运行 的 代码 ， 大 多 数 情况 下 都 是 很 容易 的 。 如果 你 无 需 与 旧版 软件 进行 交互 的 话 ， 
一 定 要 使 用 Python 3。 本 书 所 有 代码 在 两 个 版 本 下 都 可 以 运行 ,但 具体 的 输出 在 Python 2 
中 可 能 会 咯 有 不 同 。 


1.6 本 书 用 到 的 版 本 


对 于 前 面 提 到 的 这 些 库 ， 本 书 用 到 的 版 本 如 下 : 


In[9]: 
import sys 
print("Python version: {}".format(sys.version)) 



































import pandas as pd 
print("pandas version: {}".format(pd._ version )) 


import matplotlib 
print("matplotlib version: {}".format(matplotlib. version )) 


import numpy as np 
print("NumPy version: {}".format(np.__version _)) 


import scipy as sp 
print("Scipy version: {}" .format(sp. _version _)) 


import IPython 
print("IPython version: {}".format(IPython.__version )) 


import sklearn 
print("scikit-learn version: {}".format(sklearn._ version_ )) 


Out[9] : 
Python version: 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Jul 2 2016, 17:53:06) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] 
pandas version: 0.18.1 
matplotlib version: 1.5.1 
NumPy version: 1.11.1 
SciPy version: 0.17.1 
IPython version: 5.1.0 
scikit-learn version: 0.18 


这 些 版 本 不 一 定 要 精确 匹配 ， 但 scikit-learn 的 版 本 不 应 低 于 本 书 使 用 的 版 本 。 
现在 都 已 经 安装 完毕 ， 我 们 来 学 习 第 一 个 机 器 学 习 应 用 。 
本 书 假设 你 的 scikit-learn 版 本 不 低 于 0.18。0.18 版 新 增 了 model_ 


selection 模块 ， 如 果 你 用 的 是 较 早 版 本 的 scikit-learn， 那 么 需要 修改 从 
这 个 模块 导入 的 内 容 。 











注 3: six 包 (https:Wpypi.python.org/pypi/six) 可 以 方便 地 做 到 这 一 点 。 





1.7 第 一 个 应 用 : 车 尾 花 分 类 


本 节 我 们 将 完成 一 个 简单 的 机 器 学 习 应 用 ， 并 构建 我 们 的 第 一 个 模型 。 同 时 还 将 介绍 一 些 
核心 概念 和 术语 。 

有 设 有 一 名 植物 学 爱好 者 对 她 发 现 的 昔 尾 花 的 品种 很 感 兴趣 。 她 收集 了 每 关 昔 尾 花 的 一 些 
测量 数据 : 花 斩 的 长 度 和 宽度 以 及 花王 的 长 度 和 宽度 ， 所 有 测量 结果 的 单位 都 是 厘米 ( 见 
图 1-2)。 





























1-2: 营 尾 花 局 部 


她 还 有 一 些 音 尾 花 的 测量 数据 ， 这 些 花 之 前 已 经 被 植物 学 专家 鉴定 为 属于 setosa、 
versicolor 或 virginica 三 个 品种 之 一 。 对 于 这 些 测 量 数据 ， 她 可 以 确定 每 条 音 尾 花 所 属 的 品 
种 。 我 们 假设 这 位 植物 学 爱好 者 在 野外 只 会 遇 到 这 三 种 瘟 尾 花 。 

我 们 的 目标 是 构建 一 个 机 器 学 习 模 型 ， 可 以 从 这 些 已 知 品 种 的 芒 尾 花 测 量 数 据 中 进行 学 
习 ， 从 而 能 够 预测 新 莹 尾 花 的 品种 。 

因为 我 们 有 已 知 品种 的 菌 尾 花 的 测量 数据 ， 所 以 这 是 一 个 监督 学 习 问 题 。 在 这 个 问题 中 ， 
我 们 要 在 多 个 选项 中 预测 其 中 一 个 〈 蔓 尾 花 的 品种 )。 这 是 一 个 分 类 (classification) 问题 
的 示例 。 可 能 的 输出 〈 营 尾 花 的 不 同 品种 ) 叫 作 类 别 (class)。 数 据 集中 的 每 关 芝 尾 花 都 
属于 三 个 类 别 之 一 ， 所 以 这 是 一 个 三 分 类 问题 。 




















mp 


单个 数据 点 (一 朱 侯 尾 花 ) 的 预期 输出 是 这 朱 花 的 品种 。 对 于 一 个 数据 点 来 说 ， 它 的 品种 
| 作 标 签 (label)。 


1.7.1 初 识 数据 
本 例 中 我 们 用 到 了 刻 尾 花 (Iris) 数据 集 ， 这 是 机 器 学 习 和 统计 学 中 一 个 经 典 的 数据 集 。 它 
包含 在 scikit-learn 的 datasets 模块 中 。 我 们 可 以 调用 Load_iris 函数 来 加 载 数 据 : 


In[10]: 
from sklearn.datasets import load iris 
iris dataset = load_iris() 


load_iris 返回 的 iris 对 象 是 一 个 Bunch 对 象 ， 与 字典 非常 相似 ， 里 面包 含 键 和 值 : 


In[11] : 
print("Keys of iris dataset: \n{}".format(iris_ dataset.keys())) 





五 


























I 





Out[11] : 
Keys of 1Lris_dataset: 
dict_ keys(['target_names', 'feature names', 'DESCR', 'data', 'target']) 
DESCR 键 对 应 的 值 是 数据 集 的 简要 说 明 。 我 们 这 里 给 出 说 明 的 开头 部 分 (你 可 以 自己 查看 
其 余 的 内 容 ) : 
In[12]: 
print(iris_dataset['DESCR'][:193] + "\n...") 




















Out[12]: 
Iris Plants Database 


Notes 
Data Set Characteristics: 


:Number of Instances: 150 (50 in each of three classes) 
:Number of Attributes: 4 numeric, predictive att 

















target_names 键 对 应 的 值 是 一 个 字符 串 数 组 ， 里 面包 含 我 们 要 预测 的 花 的 品种 : 


In[13]: 
print("Target names: {}".format(iris dataset['target names'])) 


Out[13] : 
Target names: ['setosa' 'versicolor' 'virginica'] 


feature_names 键 对 应 的 值 是 一 个 字符 串 列 表 ， 对 每 一 个 特征 进行 了 说 明 : 


In[14]: 
print("Feature names: \n{}".format(iris dataset['feature_names'])) 














Out[14] : 
Feature names : 
['sepal Length (cm)', 'sepal width (cm)', 'petal Length (cm) ' ， 
"petaL width (cm)'] 





数据 包含 在 target 和 data 字段 中 。data 里 面 是 花 划 长度、 花 划 宽度 、 花 辩 长 度 、 花 准 宽 


度 的 测量 数据 ， 格 式 为 NumPy 数组 : 


In[15]: 
print("Type of data: {}".format(type(iris dataset['data']))) 


Out[15] : 
Type of data: <class 'numpy.ndarray'> 
data 数组 的 每 一 行 对 应 一 朱 花 ， 列 代表 每 休 花 的 四 个 测量 数据 : 


In[16]: 
print("Shape of data: {}".format(iris dataset['data'].shape)) 





Out[16] : 
Shape of data: (150，4) 





可 以 看 出 ， 数 组 中 包含 150 来 不 同 的 花 的 测量 数据 。 前 面 说 过 ， 机 器 学 习 中 的 个 体 叫 作 样 





本 (sample)， 其 属性 叫 作 特征 (feature)。data 数组 的 形状 (shape) 是 样本 数 乘 以 特 和 
数 。 这 是 scikit-learn 中 的 约定 ， 你 的 数据 形状 应 始终 遵循 这 个 约定 。 下 面 给 出 前 5 个 档 





本 的 特征 数值 ; 
In[17] : 


print("First five rows of data:\n{}".format(iris_ dataset['data'][:5])) 


Out[17] : 
First five rows of data: 
[[ 5.1 3.5 1. ] 


PAPpApPAPp 
人 必 mw 人 上 上 


] 
从 数据 中 可 以 看 出 ， 前 5 条 花 的 花瓣 宽度 都 是 0.2cm， 第 一 条 花 的 伦 本 最 长 ， 是 5.1cm。 
target 数组 包含 的 是 测量 过 的 每 打 花 的 品种 ， 也 是 一 个 NumPy 数组 : 


In[18]: 
print("Type of target: {}".format(type(iris dataset['target']))) 











Out[18] : 
Type of target: <CLass "numpy.ndarray'> 
target 是 一 维 数组 ， 每 打 花 对 应 其 中 一 个 数据 : 


In[19]: 
print("Shape of target: {}".format(iris dataset['target'].shape)) 


ne Fr 








Out[19] : 
Shape of target: (150,) 


品种 被 转换 成 从 0 到 2 的 整数 : 

In[20] : 
print("Target:\n{}".format(iris dataset['target'])) 

Out[20] : 
Target 
[0000000000000000000000000000000000000 
0000 0 0 0 00 0°0 .00 T1111: 江 
1 27 训 这 
2222Z2Z22222Z2Z22222Z22ZZ2Z2ZZZ2Z2ZZ2ZZ22 22222222 
2 2] 





上 述 数 字 的 代表 含义 由 iris['target_names'] 数组 给 出 : 0 代表 setosa，1 代表 versicolor， 
2 代表 virginica。 


1.7.2 ”衡量 模型 是 否 成 功 : 训练 数据 与 测试 数据 

我 们 想 要 利用 这 些 数据 构建 一 个 机 器 学 习 模 型 ， 用 于 预测 新 测量 的 韵尾 花 的 品种 。 但 在 将 
模型 应 用 于 新 的 测量 数据 之 前 ， 我 们 需要 知道 模型 是 否 有 效 ， 也 就 是 说 ， 我 们 是 否 应 该 相 
言 它 的 预测 结果 。 
不 幸 的 是 ， 我 们 不 能 将 用 于 构建 模型 的 数据 用 于 评估 模型 。 因 为 我 们 的 模型 会 一 直 记 住 整 
个 训练 集 ， 所 以 对 于 训练 集中 的 任何 数据 点 总 会 预测 正确 的 标签 。 这 种 “记忆 ”无 法 告诉 
我 们 模型 的 泛 化 (generalize) 能 力 如 何 ( 换 句 话说， 在 新 数据 上 能 否 正确 预测 )。 

我 们 要 用 新 数据 来 评估 模型 的 性 能 。 新 数据 是 指 模 型 之 前 没有 见 过 的 数据 ， 而 我 们 有 这 
些 新 数据 的 标签 。 通 常 的 做 法 是 将 收集 好 的 带 标签 数据 (此 例 中 是 150 朱 花 的 测量 数据 ) 
分 成 两 部 分 。 一 部 分 数据 用 于 构建 机 器 学 习 模 型 ， 叫 作 训练 数据 (training data) 或 训练 
集 (training set) 。 其 余 的 数据 用 来 评估 模型 性 能 ， 叫 作 测 试 数 据 (test data) 、 测 试 集 (test 
set) 或 留 出 集 (hold-out set)。 


scikit-learn 中 的 train_test_split 国 数 可 以 打 乱 数据 集 并 进行 拆 分 。 这 个 国 数 将 75% 的 
行 数据 及 对 应 标签 作为 训练 集 ， 剩 下 25% 的 数据 及 其 标签 作为 测试 集 。 训 练 集 与 测试 集 的 
分 配 比 例 可 以 是 随意 的 ， 但 使 用 25% 的 数据 作为 测试 集 是 很 好 的 经 验 法 则 。 


scikit-learn 中 的 数据 通常 用 大 写 的 X 表 示 ， 而 标签 用 小 写 的 y 表示 。 这 是 受到 了 数学 
标准 公式 ftx)=y 的 启发 ， 其 中 x 是 函数 的 输入 , y 是 输出 。 我 们 用 大 写 的 X 是 因为 数据 是 
一 个 二 维 数组 (和 矩阵 )， 用 小 写 的 y 是 因为 目标 是 一 个 一 维 数组 (向量)， 这 也 是 数学 中 
的 约定 。 
对 数据 调用 train_test_split， 并 对 输出 结果 采用 下 面 这 种 命名 方法 : 
In[21]: 

from sklearn.model_selection import train test_split 


X_train, X_test, y_train, y_test = train test_ split( 
iris_dataset['data'], iris_dataset['target'], random_state=0) 
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在 对 数据 进行 拆 分 之 前 ，train_test_split 国 数 利 用 伪 随 机 数 生 成 器 将 数据 集 打 乱 。 如 果 
我 们 只 是 将 最 后 25% 的 数据 作为 测试 集 ， 那 么 所 有 数据 点 的 标签 都 是 2， 因 为 数据 点 是 按 
标签 排序 的 (参见 之 前 iris['target'] 的 输出 )。 测 试 集 中 只 有 三 个 类 别 之 一 ， 这 无 法 告 
诉 我 们 模型 的 泛 化 能 力 如 何 ， 所 以 我 们 将 数据 打 乱 ， 确 保 测 试 集中 包含 所 有 类 别 的 数据 。 
为 了 确保 多 次 运行 同一 国 数 能 够 得 到 相同 的 输出 ， 我 们 利用 random_state 参数 指定 了 随机 
数 生 成 器 的 种 子 。 这 样 函 数 输出 就 是 固定 不 变 的 ， 所 以 这 行 代码 的 输出 始终 相同 。 本 书 用 
到 随机 过 程 时 ， 都 会 用 这 种 方法 指定 random_state。 

train_test_split 函数 的 输出 为 X_train、X_test、y_train 和 y_test， 它 们 都 是 NumPy 
数组 。X_train 包含 75% 的 行 数据 ，X_test 包含 剩 下 的 25%: 

In[22]: 


print("X_train shape: {}".format(X_train.shape)) 
print("y_train shape: {}".format(y_train.shape)) 

















Out[22] : 
X_train shape: (112, 4) 
y_train shape: (112,) 
In[23]: 


print("X_test shape: {}".format(X_test.shape)) 
print("y_test shape: {}".format(y_test.shape)) 


Out[23] : 
X_test shape: (38, 4) 
y_test shape: (38,) 


1.7.3 ”要 事 第 一 : 观察 数据 

在 构建 机 器 学 习 模 型 之 前 ， 通 常 最 好 检查 一 下 数据 ， 看 看 如 果 不 用 机 器 学 习 能 不 能 轻松 完 
成 任务 ， 或 者 需要 的 信息 有 没有 包含 在 数据 中 。 

此 外 ， 检 查 数据 也 是 发 现 异常 值 和 特殊 值 的 好 方法 。 举 个 例子 ， 可 能 有 些 昔 尾 花 的 测量 
位 是 英寸 而 不 是 厘米 。 在 现实 世界 中 ， 经 常会 遇 到 不 一 致 的 数据 和 意料 之 外 的 测量 数据 。 


检查 数据 的 最 佳 方法 之 一 就 是 将 其 可 视 化 。 一 种 可 视 化 方法 是 绘制 散 点 图 (scatter plot) 。 
数据 散 点 图 将 一 个 特征 作为 x 轴 ， 男 一 个 特征 作为 y 轴 ， 将 每 一 个 数据 点 绘制 为 图 上 的 一 
个 点 。 不 幸 的 是 ， 计 算 机 屏幕 只 有 两 个 维度 ， 所 以 我 们 一 次 只 能 绘制 两 个 特征 (也 可 能 是 
3 个 )。 用 这 种 方法 难以 对 多 于 3 个 特征 的 数据 集 作 图 。 解 决 这 个 问题 的 一 种 方法 是 绘制 散 
点 图 矩阵 (pair plot)， 从 而 可 以 两 两 查看 所 有 的 特征 。 如 果 特 征 数 不 多 的 话 ， 比 如 我 们 这 
里 有 4 个 ， 这 种 方法 是 很 合理 的 。 但 是 你 应 该 记 住 ， 散 点 图 矩阵 无 法 同时 显示 所 有 特征 之 
间 的 关系 ， 所 以 这 种 可 视 化 方法 可 能 无 法 展示 数据 的 某 些 有 趣 内 容 。 
图 1-3 是 训练 集中 特征 的 散 点 图 和 矩阵 。 数 据点 的 颜色 与 瘟 尾 花 的 品种 相对 应 。 为 了 绘制 这 
张 图 ， 我 们 首先 将 NumPy 数组 转换 成 pandas DataFrame。pandas 有 一 个 绘制 散 点 图 和 矩阵 的 
函数 ， 叫 作 scatter_matrix。 算 阵 的 对 角 线 是 每 个 特征 的 直方 图 : 
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In[24] : 
# 利用 X_train 中 的 数据 创建 DataFrame 
# 利用 iris_dataset.feature_names 中 的 字符 串 对 数据 列 进行 标记 
iris dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names) 
# 利用 DataFrame 创 建 散 点 图 矩阵 ， 按 y_train 着 色 
grr = pd.scatter_matrix(iris dataframe, c=y_train, figsize=(15, 15), marker="'o', 
hist_kwds={'bins': 20}, s=60, alpha=.8, cmap=mglearn.cm3) 
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图 1-3: Iris 数据 集 的 散 点 图 矩阵 ， 按 类 别 标 签 着 色 





从 图 中 可 以 看 出 ， 利 用 花 闪 和 花 莹 的 测量 数据 基本 可 以 将 三 个 类 别 区 分 开 。 这 说 明 机 器 学 
习 模型 很 可 能 可 以 学 会 区 分 它们 。 


1.7.4 构建 第 一 个 模型 : k 近 邻 算法 
现在 我 们 可 以 开始 构建 真实 的 机 器 学 习 模 型 了 。scikit-learn 中 有 许多 可 用 的 分 类 算法 。 

















这 里 我 们 用 的 是 k 近 邻 分 类 器 ， 这 是 一 个 很 容易 理解 的 算法 。 构 建 此 模型 只 需要 保存 训练 
集 即 可 。 要 对 一 个 新 的 数据 点 做 出 预测 ， 算 法 会 在 训练 集中 寻找 与 这 个 新 数据 点 距离 最 近 
的 数据 点 ， 然 后 将 找到 的 数据 点 的 标签 赋值 给 这 个 新 数据 点 。 


k 近邻 算法 中 的 含义 是 ， 我 们 可 以 考虑 训练 集中 与 新 数据 点 最 近 的 任意 k 个 邻居 (比如 
说 ， 距 离 最 近 的 3 个 或 5 个 邻居 ) ， 而 不 是 只 考虑 最 近 的 那 一 个 。 然 后 ， 我 们 可 以 用 这 些 
邻居 中 数量 最 多 的 类 别 做 出 预测 。 第 2 章 会 进一步 介绍 这 个 算法 的 细节 ， 现 在 我 们 只 考虑 
一 个 邻居 的 情况 。 

scikit-learn 中 所 有 的 机 器 学 习 模型 都 在 各 自 的 类 中 实现 ， 这 些 类 被 称 为 Estimator 
类 。k 近 邻 分 类 算法 是 在 neighbors 模块 的 KNeighborsClassifier 类 中 实现 的 。 我 们 需 
要 将 这 个 类 实例 化 为 一 个 对 象 ， 然 后 才能 使 用 这 个 模型 。 这 时 我 们 需要 设置 模型 的 参数 。 
KNeighborsClassifier 最 重要 的 参数 就 是 邻居 的 数目 ， 这 里 我 们 设 为 1: 

In[25] : 


from sklearn.neighbors import KNeighborsClassifier 
knn = KNeighborsClassifier(n_neighbors=1) 


knn 对 象 对 算法 进行 了 封装 ， 既 包括 用 训练 数据 构建 模型 的 算法 ， 也 包括 对 新 数据 点 进行 
预测 的 算法 。 它 还 包括 算法 从 训练 数据 中 提取 的 信息 。 对 于 KNeighborsClassifier 来 说 ， 
里 面 只 保存 了 训练 集 。 

想 要 基于 训练 集 来 构建 模型 ,需要 调用 knn 对 象 的 fit 方 法 ,输入 参数 为 X_train 和 y_ 
train， 二 者 都 是 NumPy 数组 ， 前 者 包含 训练 数据 ， 后 者 包含 相应 的 训练 标签 : 


In[26]: 
knn.fit(X_train, y_train) 









































Out[26] : 
KNeighborsCLassifier(aLgorithm='auto' ，Leaf_size=30，metric='minkowski ' ， 
metric_params=None，n_jobs=1，n_neighbors=1，p=2， 
weights='uniform') 


fit 方 法 返回 的 是 knn 对 象 本 身 并 做 原 处 修改 ， 因 此 我 们 得 到 了 分 类 器 的 字符 串 表 示 。 
从 中 可 以 看 出 构建 模型 时 用 到 的 参数 。 几 乎 所 有 参数 都 是 默认 值 ， 但 你 也 会 注意 到 n_ 
neighbors=1， 这 是 我 们 传人 的 参数 。scikit-learn 中 的 大 多 数 模型 都 有 很 多 参数 ， 但 多 用 
于 速度 优化 或 非常 特殊 的 用 途 。 你 无 需 关 注 这 个 字符 串 表 示 中 的 其 他 参数 。 打 印 scikit- 
learn 模型 会 生成 非常 长 的 字符 串 ， 但 不 要 被 它 吓 到 。 我 们 会 在 第 2 章 讲 到 所 有 重要 的 参 
数 。 在 本 书 的 其 他 章节 中 ， 我 们 不 会 给 出 fit 的 输出 ， 因 为 里 面 没 有 包含 任何 新 的 信息 。 


1.7.5 ”做 出 预测 


现在 我 们 可 以 用 这 个 模型 对 新 数据 进行 预测 了 ， 我 们 可 能 并 不 知道 这 些 新 数据 的 正确 标 
签 。 想 象 一 下 ， 我 们 在 野外 发 现 了 一 条 音 尾 伦 ， 花 葬 长 5cm 宽 2.9cm， 人 花 准 长 lcm 宽 
0.2cm。 这 条 昔 尾 花 属 于 哪个 品种 ? 我 们 可 以 将 这 些 数据 放 在 一 个 NumPy 数组 中 ， 再 次 计 
算 形 状 ， 数 组 形状 为 样本 数 (1) 乘 以 特征 数 (4) : 












































In[27] : 
X_new = np.array([[5，2.9，1，0.2]]) 
print("X_new.shape: {}".format(X_new.shape)) 


Out[27] : 
X_new.shape: (1, 4) 


注意 ， 我 们 将 这 采花 的 测量 数据 转换 为 二 维 NumPy 数组 的 一 行 ， 这 是 因为 scikit-learn 
的 输入 数据 必须 是 二 维 数组 。 


我 们 调用 knn 对 象 的 predict 方法 来 进行 预测 : 


In[28]: 
prediction = knn.predict(X_new) 
print("Prediction: {}".format(prediction)) 
print("Predicted target name: {}".format( 
iris dataset['target names'][prediction])) 





Out[28] : 
Prediction: [0] 
Predicted target name: ['setosa'] 


根据 我 们 模型 的 预测 ， 这 条 新 的 划 尾 花 属 于 类 别 0， 也 就 是 说 它 属于 setosa 品种 。 但 我 们 
怎么 知道 能 否 相 信 这 个 模型 呢 ? 我 们 并 不 知道 这 个 样本 的 实际 品种 ， 这 也 是 我 们 构建 模型 
的 重点 啊 ! 


1.7.6 ”评估 模型 


这 里 需要 用 到 之 前 创建 的 测试 集 。 这 些 数据 没有 用 于 构建 模型 ， 但 我 们 知道 测试 集中 每 打 
芯 尾 花 的 实际 品种 。 

因此 ， 我 们 可 以 对 测试 数据 中 的 每 杀 意 尾 花 进行 预测 ， 并 将 预测 结果 与 标签 (已 知 的 品 
种 ) 进行 对 比 。 我 们 可 以 通过 计算 精度 (accuracy) 来 衡量 模型 的 优 劣 ， 精 度 就 是 品种 预 
测 正确 的 花 所 占 的 比例 : 

In[29] : 


y_pred = knn.predict(X_test) 
print("Test set predictions:\n {}".format(y_pred)) 




















Out[29] : 
Test set predictions: 
[21020201112111101100210020011021022102] 


In[30] : 
print("Test set score: {:.2f}" .format(np.mean(y_pred == y_test))) 


Out[30] : 
Test set Score: 0.97 


我 们 还 可 以 使 用 knn 对 象 的 score 方法 来 计算 测试 集 的 精度 : 





In[31] : 
print("Test set score: {:.2f}".format(knn.score(X_test, y_test))) 


Out[31] : 
Test set Score: 0.97 


对 于 这 个 模型 来 说 ， 测 试 集 的 精度 约 为 0.97， 也 就 是 说 ， 对 于 测试 集中 的 音 尾 花 ， 我 们 的 
预测 有 97% 是 正确 的 。 根 据 一 些 数学 假设 ， 对 于 新 的 葛 尾 花 ， 可 以 认为 我 们 的 模型 预测 
结果 有 97% 都 是 正确 的 。 对 于 我 们 的 植物 学 爱好 者 应 用 程序 来 说 ， 高 精度 意味 着 模型 足 
够 可 和信， 可 以 使 用 。 在 后 续 章 节 中 ， 我 们 将 讨论 提高 性 能 的 方法 ， 以 及 模型 调 参 时 的 注 


1.8 小 结 与 展望 


总 结 一 下 本 章 所 学 的 内 容 。 我 们 首先 简要 介绍 了 机 器 学 习 及 其 应 用 ， 然 后 讨论 了 监督 学 习 
和 无 监督 学 习 之 间 的 区 别 ， 并 简要 介绍 了 本 书 将 会 用 到 的 工具 。 随 后 ， 我 们 构思 了 一 项 任 
务 ， 要 利用 竟 尾 花 的 物理 测量 数据 来 预测 其 品种 。 我 们 在 构建 模型 时 用 到 了 由 专家 标注 过 
的 测量 数据 集 ， 专 家 已 经 给 出 了 花 的 正确 品种 ， 因 此 这 是 一 个 监督 学 习 问 题 。 一 共有 三 个 
品种 : setosa、versicolor 或 virginica， 因 此 这 是 一 个 三 分 类 问题 。 在 分 类 问题 中 ， 可 能 的 
品种 被 称 为 类 别 (class)， 每 打 花 的 品种 被 称 为 它 的 标签 (label)。 


斌 尾 花 (Iris) 数据 集 包含 两 个 NumPy 数组 : 一 个 包含 数据 ， 在 scikit-learn 中 被 称 为 X; 
一 个 包含 正确 的 输出 或 预期 输出 ， 被 称 为 y。 数 组 X 是 特征 的 二 维 数 组 ， 每 个 数据 点 对 应 
一 行 ， 每 个 特征 对 应 一 列 。 数 组 y 是 一 维 数组 ， 里 面包 含 一 个 类 别 标 签 ， 对 每 个 样本 都 是 
一 个 0 到 2 之 间 的 整数 。 


我 们 将 数据 集 分 成 训练 集 (training set) 和 测试 集 (test set) ， 前 者 用 于 构建 模型 ， 后 者 用 
于 评估 模型 对 前 所 未 见 的 新 数据 的 泛 化 能 

我 们 选择 了 近邻 分 类 算法 ， 根 据 新 数据 点 在 训练 集中 距离 最 近 的 邻居 来 进行 预测 。 该 算 
法 在 KNeighborsClassifier 类 中 实现 ， 里 面 既 包含 构建 模型 的 算法 ， 也 包含 利用 模型 进行 
预测 的 算法 。 我 们 将 类 实例 化 ， 并 设 定 参数 。 然 后 调用 fit 方法 来 构建 模型 ， 传 入 训练 数 
据 (X_train) 和 训练 输出 (y_trian) 作为 参数 。 我 们 用 score 方法 来 评估 模型 ， 该 方法 
计算 的 是 模型 精度 。 我 们 将 score 方法 用 于 测试 集 数据 和 测试 集 标签 ， 得 出 模型 的 精度 约 
为 97%， 也 就 是 说 ， 该 模型 在 测试 集 上 97% 的 预测 都 是 正确 的 。 

这 让 我 们 有 信心 将 模型 应 用 于 新 数据 (在 我 们 的 例子 中 是 新 花 的 测量 数据 )， 并 相信 模型 
在 约 97% 的 情况 下 都 是 正确 的 。 

下 面 汇 总 了 整个 训练 和 评估 过 程 所 必需 的 代码 : 


In[32]: 
Xx_train, X_test, y_train, y_test = train test_split( 
iris_dataset['data'], iris dataset['target'], random_state=0) 































































































knn = KNeighborsClassifier(n_neighbors=1) 





knn.fit(X_train, y_train) 
print("Test set score: {:.2f}".format(knn.score(X_test, y_test))) 


Out[32] : 
Test set Score: 0.97 


这 个 代码 片段 包含 了 应 用 scikit-learn 中 任何 机 器 学 习 算 法 的 核心 代码 。fit、predict 和 
score 方法 是 scikit-learn 监督 学 习 模型 中 最 常用 的 接口 。 学 完 本 章 介绍 的 概念 ， 你 可 以 
将 这 些 模 型 应 用 到 许多 机 器 学 习 任 务 上 。 下 一 章 ， 我 们 会 更 深入 地 介绍 scikit-learn 中 各 
种 类 型 的 监督 学 习 模 型 ， 以 及 这 些 模型 的 正确 使 用 方法 。 




















前 面 说 过 ， 监 督学 习 是 最 常用 也 是 最 成 功 的 机 器 学 习 类 型 之 一 。 本 章 将 会 详细 介绍 监督 学 
习 ， 并 解释 几 种 常用 的 监督 学 习 算法 。 我 们 在 第 1 章 已 经 见 过 一 个 监督 学 习 的 应 用 : 利用 
物理 负 量 数据 将 芝 尾 伦 分 成 几 个 品 


记 住 ， 每 当 想 要 根据 给 定 输 入 预测 某 个 结果 ， 并 且 还 有 输入 /输出 对 的 示例 时 ， 都 应 该 使 
用 监督 学 习 。 这 些 输入 /输出 对 构成 了 训练 集 ， 我 们 利用 它 来 构建 机 器 学 习 模 型 。 我 们 的 
目标 是 对 从 未 见 过 的 新 数据 做 出 准确 预测 。 监 督学 习 通常 需要 人 力 来 构建 训练 集 ， 但 之 后 
的 任务 本 来 非常 费力 甚至 无 法 完成 ， 现 在 却 可 以 自动 完成 ， 通 常 速度 也 更 快 。 


2.1 分 类 与 回归 
监督 机 器 学 习 问 题 主要 有 两 种 ， 分 别 叫 作 分 类 (classification) 与 回归 (regression)。 


分 类 问题 的 目标 是 预测 类 别 标签 (class label) ， 这 些 标签 来 自 预 定义 的 可 选 列表 。 第 1 
章 讲 过 一 个 例子 ， 即 将 意 尾 花 分 到 三 个 可 能 的 品种 之 一 。 分 类 问题 有 时 可 分 为 二 分 类 
(binary classification， 在 两 个 类 别 之 间 进 行 区 分 的 一 种 特殊 情况 ) 和 多 分 类 (multiclass 
classification， 在 两 个 以 上 的 类 别 之 间 进 行 区 分 )。 你 可 以 将 二 分 类 看 作 是 尝试 回答 一 道 是 / 
否 问 题 。 将 电子 邮件 分 为 垃圾 邮件 和 非 垃 圾 邮件 就 是 二 分 类 问题 的 实例 。 在 这 个 二 分 类 任 
务 中 ， 要 问 的 是 / 否 问 题 为 :“ 这 封 电子 邮件 是 垃圾 邮件 吗 ? ” 

在 二 分 类 问题 中 ， 我 们 通常 将 其 中 一 个 类 别称 为 正 类 (positive class) ， 另 一 个 类 别称 为 反 
类 (negative class)。 这 里 的 “ 正 ” 并 不 代表 好 的 方面 或 正 数 ， 而 是 代表 研究 对 象 。 因 此 在 
寻找 垃圾 邮件 时 ,“ 正 ”可 能 指 的 是 垃圾 邮件 这 一 类 别 。 将 两 个 类 别 中 的 哪 一 个 作为 “下 
类 ”， 往 往 是 主观 判断 ， 与 具体 的 领域 有 关 。 


一 方面 ， 音 尾 花 的 例子 则 属于 多 分 类 问题 。 另 一 个 多 分 类 的 例子 是 根据 网 站 上 的 文本 预 
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测 网 站 所 用 的 语言 。 这 里 的 类 别 就 是 预定 义 的 语言 列表 。 

回归 任务 的 目标 是 预测 一 个 连续 值 ， 编 程 术语 叫 作 浮 点 数 (floating-point number) ， 数 学 术 
语 叫 作 实 数 (real number)。 根 据 教 育 水 平 、 年 龄 和 居住 地 来 预测 一 个 人 的 年 收入 ， 这 就 是 
回归 的 一 个 例子 。 在 预测 收入 时 ， 预 测 值 是 一 个 金额 (amount) ， 可 以 在 给 定 范 围 内 任意 
取 值 。 回 归 任 务 的 另 一 个 例子 是 ， 根 据 上 一 年 的 产量 、 天 气 和 农场 员工 数 等 属性 来 预测 玉 
米 农 场 的 产量 。 同 样 ， 产 量 也 可 以 取 任 意 数值 。 

区 分 分 类 任务 和 回归 任务 有 一 个 简单 方法 ， 就 是 问 一 个 问题 输出 是 否 具 有 某 种 连续 性 。 
如 果 在 可 能 的 结果 之 间 具 有 连续 性 ， 那 么 它 就 是 一 个 回归 问题 。 想 想 预 测 年 收入 的 例子 。 
输出 具有 非常 明显 的 连续 性 。 一 年 赚 40 000 美元 还 是 40 001 美元 并 没有 实质 差别 ， 即 使 
两 者 金额 不 同 。 如 果 我 们 的 算法 在 本 应 预测 40 000 美元 时 的 预测 结果 是 39 999 美元 或 
40 001 美元 ， 不 必 过 分 在 意 。 

与 此 相反 ， 对 于 识别 网 站 语言 的 任务 (这 是 一 个 分 类 问题 ) 来 说 ， 并 不 存在 程度 问题 。 网 
站 使 用 的 要 么 是 这 种 语言 ， 要 么 是 那 种 语言 。 在 语言 之 间 不 存在 连续 性 ， 在 英语 和 法 语 之 
间 不 存在 其 他 语言 。" 


> 也 ) 
2.2 泛 化 、 过 拟 合 与 欠 拟 合 
在 监督 学 习 中 ， 我 们 想 要 在 训练 数据 上 构建 模型 ， 然 后 能 够 对 没 见 过 的 新 数据 (这 些 新 数 
据 与 训练 集 具有 相同 的 特性 ) 做 出 准确 预测 。 如 果 一 个 模型 能 够 对 没 见 过 的 数据 做 出 准确 
预测 ， 我 们 就 说 它 能 够 从 训练 集 泛 化 (generalize) 到 测试 集 。 我 们 想 要 构建 一 个 泛 化 精度 
尽 可 能 高 的 模型 。 
通常 来 说 ， 我 们 构建 模型 ， 使 其 在 训练 集 上 能 够 做 出 准确 预测 。 如 果 训 练 集 和 测试 集 足 够 
相似 ， 我 们 预计 模型 在 测试 集 上 也 能 做 出 准确 预测 。 不 过 在 某 些 情况 下 这 一 点 并 不 成 立 。 
例如 ， 如 果 我 们 可 以 构建 非常 复杂 的 模型 ， 那 么 在 训练 集 上 的 精度 可 以 想 多 高 就 多 高 。 
为 了 说 明 这 一 点 ， 我 们 来 看 一 个 虚构 的 例子 。 比 如 有 一 个 新 手数 据 科 学 家 ， 已 知之 前 船 的 
买 家 记录 和 对 买 船 不 感 兴趣 的 顾客 记录 ,， 想 要 预测 某 个 顾客 是 否 会 买 船 。: 目标 是 向 可 能 购 
买 的 人 发 送 促销 电子 邮件 ， 而 不 去 打扰 那些 不 感 兴 趣 的 顾客 。 


假设 我 们 有 顾客 记录 ， 如 表 2-1 所 示 。 
表 2-1: 顾客 数据 示例 


















































































































































年 龄 拥有 的 小 汽车 数量 “是否 有 房子 ”子女 数量 婚姻 状况 是 否 养 狗 是 否 买 过 船 
66 1 是 2 走 偶 否 是 
52 2 是 3 已 婚 否 是 
22 0 否 0 已 婚 是 否 
25 1 否 1 单身 否 否 








注 1: 请 语言 学 家 原谅 我 们 将 语言 的 表示 方式 简化 为 独特 而 又 确定 的 实体 。 
注 2: 在 现实 世界 中 ， 这 实际 上 是 一 个 非常 复杂 的 问题 。 虽 然 我 们 知道 其 他 顾客 还 没有 从 我 们 这 里 买 过 船 ， 
但 他 们 可 能 已 经 在 其 他 人 那里 买 过 了 ， 或 者 仍 在 存 钱 并 打算 将 来 再 买 。 
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年 龄 拥有 的 小 汽车 数量 。 是 否 有 房子 ”子女 数量 婚姻 状况 是 否 养 狗 是 否 买 过 船 
44 0 否 2 离异 是 否 
39 1 是 2 已 婚 是 否 
26 1 否 2 单身 否 否 
40 3 是 1 已 婚 是 否 
53 2 是 2 离异 否 是 
64 2 是 3 离异 否 否 
58 2 是 2 已 婚 是 是 
33 1 否 1 单身 否 否 


对 数据 观察 一 段 时 间 之 后 ， 我 们 的 新 手数 据 科 学 家 发 现 了 以 下 规律 :“ 如 采 顾 客 年 龄 大 于 
45 岁 ， 并 且 子 女 少 于 3 个 或 没有 离婚 ， 那 么 他 就 想 要 买 船 。 如 果 你 问 他 这 个 规律 的 效果 
如 何 ， 我 们 的 数据 科学 家 会 回答 :“100% 准确 ! ”的 确 ， 对 于 表 中 的 数据 ， 这 条 规律 完全 
正确 。 我 们 还 可 以 发 现 好 多 规律 ， 都 可 以 完美 解释 这 个 数据 集中 的 某 人 是 否 想 要 买 船 。 数 
据 中 的 年 龄 都 没有 重复 ， 因 此 我 们 可 以 这 样 说 : 66、52、53 和 58 岁 的 人 想 要 飞船 ， 而 其 
他 年 龄 的 人 都 不 想 买 。 虽 然 我 们 可 以 编 出 许多 条 适用 于 这 个 数据 集 的 规律 ， 但 要 记 住 ， 我 
们 感 兴趣 的 并 不 是 对 这 个 数据 集 进行 预测 ， 我 们 已 经 知道 这 些 顾 客 的 答案 。 我 们 想 知 道 新 
顾客 是 否 可 能 会 买 船 。 因 此 ， 我 们 想 要 找到 一 条 适用 于 新 顾客 的 规律 ， 而 在 训练 集 上 实现 
100% 的 精度 对 此 并 没有 帮助 。 我 们 可 能 认为 数据 科学 家 发 现 的 规律 无 法 适用 于 新 顾客 。 
它 看 起 来 过 于 复杂 ， 而 且 只 有 很 少 的 数据 支持 。 例 如 ， 规 律 里 “或 没有 离婚 ”这 一 条 对 应 
的 只 有 一 名 顾客 。 

判断 一 个 算法 在 新 数据 上 表现 好 坏 的 唯一 度量 ， 就 是 在 测试 集 上 的 评估 。 然 而 从 直觉 上 
看 ,我 们 认为 简单 的 模型 对 新 数据 的 泛 化 能 力 更 好 。 如 果 规 律 是 “年 龄 大 于 50 岁 的 人 想 
要 买 船 ”， 并 且 这 可 以 解释 所 有 顾客 的 行为 ， 那 么 我 们 将 更 相信 这 条 规律 ， 而 不 是 与 年 
龄 、 子 女 和 婚姻 状况 都 有 关系 的 那 条 规律 。 因 此 ， 我 们 总 想 找到 最 简单 的 模型 。 构 建 一 
个 对 现 有 信息 量 来 说 过 于 复杂 的 模型 ， 正 如 我 们 的 新 手数 据 科 学 家 做 的 那样 ， 这 被 称 为 
过 拟 合 〈overfitting)。 如 果 你 在 拟 合 模型 时 过 分 关注 训练 集 的 细节 ， 得 到 了 一 个 在 训练 
集 上 表现 很 好 、 但 不 能 泛 化 到 新 数据 上 的 模型 ， 那 么 就 存在 过 拟 合 。 与 之 相反 ， 如 有 果 你 
的 模型 过 于 简单 一 一 比如 说 ,“ 有 房子 的 人 都 买 船 ” 一 一 那么 你 可 能 无 法 抓 住 数据 的 全 部 
内 容 以 及 数据 中 的 变化 ， 你 的 模型 甚至 在 训练 集 上 的 表现 就 很 差 。 选 择 过 于 简单 的 模型 
被 称 为 欠 拟 合 (underfitting ) 。 

我 们 的 模型 越 复杂 ， 在 训练 数据 上 的 预测 结果 就 越 好 。 但 是 ， 如 果 我 们 的 模型 过 于 复杂 ， 
我 们 开始 过 多 关注 训练 集中 每 个 单独 的 数据 点 ， 模 型 就 不 能 很 好 地 泛 化 到 新 数据 上 。 


二 者 之 间 存 在 一 个 最 佳 位 置 ， 可 以 得 到 最 好 的 泛 化 性 能 。 这 就 是 我 们 想 要 的 模型 。 
图 2-1 给 出 了 过 拟 合 与 欠 拟 合 之 间 的 权衡 。 


































































































注 3: 在 数学 上 也 可 以 证 明 这 一 点 。 
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图 2-1: 模型 复杂 度 与 训练 精度 和 测试 精度 之 间 的 权衡 


模型 复杂 度 与 数据 集 大 小 的 关系 


需要 注意 ， 模 型 复杂 度 与 训练 数据 集中 输入 的 变化 密切 相关 : 数据 集中 包含 的 数据 点 的 变 
化 范围 越 大 ， 在 不 发 生 过 拟 合 的 前 提 下 你 可 以 使 用 的 模型 就 越 复杂 。 通 常 来 说 ， 收 集 更 多 
的 数据 点 可 以 有 更 大 的 变化 范围 ， 所 以 更 大 的 数据 集 可 以 用 来 构建 更 复杂 的 模型 。 但 是 ， 
仅 复制 相同 的 数据 点 或 收集 非常 相似 的 数据 是 无 游 于 事 的 。 


回 到 前 面 卖 船 的 例子 ， 如 果 我 们 查看 了 10 000 多 行 的 顾客 数据 ， 并 且 所 有 数据 都 符合 
这 条 规律 :“ 如 果 顾 客 年 龄 大 于 45 岁 ， 并 且 子 女 少 于 3 个 或 没有 离婚 ， 那 么 他 就 想 要 买 
络 ”， 那么 我 们 就 更 有 可 能 相信 这 是 一 条 有 效 的 规律 ， 比 从 表 2-1 中 仅 12 行 数据 得 出 来 
的 更 为 可 信 。 

收集 更 多 数据 ， 适 当 构 建 更 复杂 的 模型 ， 对 监督 学 习 任 务 往往 特别 有 用 。 本 书 主要 关注 固 
定 大 小 的 数据 集 。 在 现实 世界 中 ， 你 往往 能 够 决定 收集 多 少数 据 ， 这 可 能 比 模型 调 参 更 为 
有 效 。 永 远 不 要 低估 更 多 数据 的 力量 ! 


2.3 监督 学 习 算 法 


现在 开始 介绍 最 常用 的 机 器 学 习 算法 ， 并 解释 这 些 算 法 如 何 从 数据 中 学 习 以 及 如 何 预测 。 
我 们 还 会 讨论 每 个 模型 的 复杂 度 如 何 变化 ， 并 概述 每 个 算法 如 何 构建 模型 。 我 们 将 说 明 每 
个 算法 的 优点 和 缺点 ， 以 及 它们 最 适应 用 于 哪 类 数据 。 此 外 还 会 解释 最 重要 的 参数 和 选项 
的 含义 。“ 许 多 算法 都 有 分 类 和 回归 两 种 形式 ， 两 者 我 们 都 会 讲 到 。 







































































注 4: 讲解 所 有 的 参数 和 选项 超出 了 本 书 范围 ， 你 可 以 参阅 scikit-learn 文档 (http://scikit-learn.org/stable/ 
documentation) 来 了 解 更 多 细节 。 
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没有 必要 通读 每 个 算法 的 详细 描述 ， 但 理解 模型 可 以 让 你 更 好 地 理解 机 器 学 习 算 法 的 各 种 
工作 原理 。 本 章 还 可 以 用 作 参 考 指 南 ， 当 你 不 确定 某 个 算法 的 工作 原理 时 ， 就 可 以 回来 查 























看 本 章 内 容 。 
2.3.1 一 些 样本 数据 集 





我 们 将 使 用 一 些 数据 集 来 说 明 不 同 的 算法 。 基 中 一 些 数据 集 很 小 ， 而 且 是 模拟 的 ， 其 目的 

















是 强调 算法 的 某 个 特定 方面 。 其 他 数据 集 都 是 现实 世界 的 大 型 数据 集 。 














ns 它 有 两 个 特征 。 下 列 代码 将 绘制 一 个 散 点 








图 (图 2-2)， 将 此 数据 集 的 所 有 数据 点 可 视 化 。 图 像 以 第 一 个 特征 为 x 轴 ， 第 二 个 特 和 和 





为 




















了》 轴 。 i 其 他 散 点 图 那样 ， 每 个 数据 点 对 应 图 像 中 的 一 点 。 每 个 点 的 颜色 和 形状 对 应 其 














类 别 : 


In[2]: 
# 生成 数据 集 
X, y = mglearn.datasets.make_forge() 
# 数据 集 绘图 
mglearn.discrete_scatter(X[:, 0], X[:, 1], y) 
plt.legend(["Class 0", "Class 1"], loc=4) 
plt.xlabel("First feature") 
plt.ylabel("Second feature") 
print("X.shape: {}".format(X.shape)) 


Out[2]: 
X.shape: (26, 2) 





Second feature 
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2-2: forge 数据 集 的 散 点 图 








从 X.shape 可 以 看 出 ， 这 个 数据 集 包 含 26 个 数据 点 和 2 个 特征 。 


我 们 用 模拟 的 wave 数据 集 来 说 明 回 归 算 法 。wave 数据 集 只 有 一 个 输入 特征 和 一 个 连续 的 
目标 变量 (或 响应 )， 后 者 是 模型 想 要 预测 的 对 象 。 下 面 绘制 的 图 像 (图 2-3) 中 单一 特征 
位 于 x 轴 ， 回 归 目 标 (输出 ) 位 于 y 轴 : 


In[3]: 
X, y = mglearn.datasets.make wave(n_samples=40) 
plt.plot(X, y, 'o') 
plt.ylim(-3, 3) 
plt.xlabel("Feature") 
plt.ylabel("Target") 
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图 2-3: wave 数据 集 的 图 像 ，x 轴 表 示 特 征 ，y 轴 表 示 回归 目标 


我 们 之 所 以 使 用 这 些 非 常 简单 的 低 维 数据 集 ， 是 因为 它们 的 可 视 化 非常 简单 一 一 书页 只 

两 个 维度 ， 所 以 很 难 展示 特征 数 超过 两 个 的 数据 。 从 特征 较 少 的 数据 集 (也 叫 低 维 数据 
集 ) 中 得 出 的 结论 可 能 并 不 适用 于 特征 较 多 的 数据 集 (也 叫 高 维 数据 集 )。 只 要 你 记 住 这 
一 点 ， 那 么 在 低 维 数据 集 上 研究 算法 也 是 很 有 启发 的 。 
除了 上 面 这 些小 型 的 模拟 的 数据 集 ， 我 们 还 将 补充 两 个 现实 世界 中 的 数据 集 ， 它 们 都 包含 
在 scikit-learn 中 。 其 中 一 个 是 威斯康星 州 乳腺 癌 数 据 集 (简称 cancer)， 里 面 记录 了 乳 
腺 癌 肿 瘤 的 临床 测量 数据 。 每 个 肿瘤 都 被 标记 为 “良性 ”(benign， 表 示 无 害 肿 瘤 ) 或 “ 恶 
性 ”(malignant， 表 示 癌 性 肿瘤 )， 其 任务 是 基于 人 体 组 织 的 测量 数据 来 学 习 预 测 肿瘤 是 否 
为 恶性 。 
























































可 以 用 scikit-learn 模块 的 Load_breast_cancer 国 数 来 加 载 数 据 : 


In[4]: 
from sklearn.datasets import load_breast_ cancer 
cancer = load_breast cancer() 
print("cancer.keys(): \n{}".format(cancer.keys())) 


Out[4]: 


cancer .keys() : 
dict_keys(['feature_names', 'data', 'DESCR', 'target', 'target_names']) 


包含 在 scikit-learn 中 的 数据 集 通常 被 保存 为 Bunch 对 象 ， 里 面包 含 真实 
数据 以 及 一 些 数据 集 信息 。 关 于 Bunch 对 象 ， 你 只 需要 知道 它 与 字典 很 术 
似 ， 而 且 还 有 一 个 额外 的 好 处 ， 就 是 你 可 以 用 点 操作 符 来 访问 对 象 的 值 ( 比 
如 用 bunch .key 来 代替 bunch[ 'key'])。 
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这 个 数据 集 共 包含 569 个 数据 点 ， 每 个 数据 点 有 30 个 特征 : 


In[5]: 
print("Shape of cancer data: {}".format(cancer.data.shape)) 


Out[5]: 
Shape of cancer data: (569, 30) 


在 569 个 数据 点 中 ，212 个 被 标记 为 恶性 ，357 个 被 标记 为 良性 : 


In[6]: 
print("Sample counts per class:\n{}".format( 
{n: v for n, v in zip(cancer.target names, np.bincount(cancer.target))})) 





Out[6] : 
Sample counts per class: 
{'benign': 357, 'malignant': 212} 


为 了 得 到 每 个 特征 的 语义 说 明 ， 我 们 可 以 看 一 下 feature_names 属性 : 


In[7]: 
print("Feature names:\n{}".format(cancer.feature_names)) 


Out[7]: 

Feature names : 

['mean radius' 'mean texture' 'mean perimeter' 'mean area' 
'mean smoothness' 'mean compactness' 'mean concavity’ 
'mean concave points' 'mean symmetry' 'mean fractal dimension' 
'radius error' 'texture error' 'perimeter error' 'area error' 
"Smoothness error' 'compactness error' 'concavity error' 
'concave points error' 'symmetry error' 'fractal dimension error' 
'worst radius' 'worst texture' 'worst perimeter' 'worst area' 
"worst smoothness' 'worst compactness' 'worst concavity' 
'worst concave points' 'worst symmetry' 'worst fractal dimension'] 


感 兴趣 的 话 ， 你 可 以 阅读 cancer .DESCR 来 了 解数 据 的 更 多 信息 。 
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我 们 还 会 用 到 一 个 现实 世界 中 的 回归 数据 集 ， 即 波士顿 房价 数据 集 。 与 这 个 数据 集 相 关 的 
任务 是 ， 利 用 犯罪 率 、 是 否 邻 近 查尔斯 河 、 公 路 可 达 性 等 信息 ， 来 预测 20 世纪 70 年 代 波 
士 顿 地 区 房屋 价格 的 中 位 数 。 这 个 数据 集 包含 506 个 数据 点 和 13 个 特征 : 


In[8]: 
from sklearn.datasets import load_boston 
boston = load_boston() 
print("Data shape: {}".format(boston.data.shape)) 





Out[8]: 
Data shape: (506, 13) 


同样 ， 你 可 以 阅读 boston 对 象 的 DESCR 属性 来 了 解数 据 集 的 更 多 信息 。 对 于 我 们 的 目的 
言 ， 我 们 需要 扩展 这 个 数据 集 ， 输 入 特征 不 仅 包 括 这 13 个 测量 结果 ， 还 包括 这 些 特征 

之 间 的 乘积 (也 叫 交 互 项 ) 。 换 名 话说 ， 我 们 不 仅 将 犯罪 率 和 公路 可 达 性 作为 特征 ， 还 将 

犯罪 率 和 公路 可 达 性 的 乘积 作为 特征 。 像 这 样 包 含 导出 特征 的 方法 叫 作 特征 工程 (feature 

engineering)， 将 在 第 4 章 中 详细 讲述 。 这 个 导出 的 数据 集 可 以 用 Load_extended_boston 国 

数 加 载 : 

In[9]: 


X, y = mglearn.datasets.load_ extended_boston() 
print("X.shape: {}".format(X.shape)) 

















Out[9] : 

X.shape: (506, 104) 
最 初 的 13 个 特征 加 上 这 13 个 特征 两 两 组 合 (有 放 回 ) 得 到 的 91 个 特征 ， 一 共有 104 个 
特征 。” 
我 们 将 利用 这 些 数据 集 对 不 同 机 器 学 习 算 法 的 性 质 进 行 解释 说 明 。 但 目前 来 说 ， 先 来 看 算 
法 本 身 。 首 先 重 新 学 习 上 一 章 见 过 的 上 近邻 (kNN) 算法 。 




















2.3.2 kk 近邻 
k-NN 算法 可 以 说 是 最 简单 的 机 器 学 习 算 法 。 构 建 模型 只 需要 保存 训练 数据 集 即 可 。 想 要 
对 新 数据 点 做 出 预测 ， 算 法 会 在 训练 数据 集中 找到 最 近 的 数据 点 ， 也 就 是 它 的 “最 近邻 ”。 
1. k 近 邻 分 类 
k-NN 算法 最 简单 的 版 本 只 考虑 一 个 最 近邻 ， 也 就 是 与 我 们 想 要 预测 的 数据 点 最 近 的 训练 
数据 点 。 预 测 结果 就 是 这 个 训练 数据 点 的 已 知 输出 。 图 2-4 给 出 了 这 种 分 类 方法 在 forge 
数据 集 上 的 应 用 : 
In[10]: 

mglearn.plots.plot_knn_classification(n_neighbors=1) 






































注 5: 第 1 个 特征 可 以 与 13 个 特征 相 乘 ， 第 2 个 可 以 与 12 个 特征 相 乘 (除了 第 1 个 )， 第 3 个 可 以 与 11 个 
特征 相 乘 …… 依 次 相 加 ，13 + 12+11+…+1=91。 
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图 2-4: 单一 最 近邻 模型 对 forge 数据 集 的 预测 结果 


这 里 我 们 添加 了 3 个 新 数据 点 (用 五 角 星 表示 )。 对 于 每 个 新 数据 点 ， 我 们 标记 了 训练 集 
中 与 它 最 近 的 点 。 单 一 最 近邻 算法 的 预测 结果 就 是 那个 点 的 标签 〈 对 应 五 角 星 的 颜色 )。 
除了 仅 考 虑 最 近邻 ， 我 还 可 以 考虑 任意 个 (KE 个 ) 邻居 。 这 也 是 k 近 邻 算 法 名 字 的 来 历 。 
在 考虑 多 于 一 个 邻居 的 情况 时 ， 我 们 用 “投票 法 ”(voting) 来 指定 标签 。 也 就 是 说 ， 对 
于 每 个 测试 点 ， 我 们 数 一 数 多 少 个 邻居 属于 类 别 0， 多 少 个 邻居 属于 类 别 1。 然 后 将 出 现 
次 数 更 多 的 类 别 (也 就 是 个 近邻 中 占 多 数 的 类 别 ) 作为 预测 结果 。 下 面 的 例子 (图 2-5) 
用 到 了 3 个 近邻 : 
In[11] : 

mglearn.plots.plot_knn_classification(n_neighbors=3) 
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2-5: 3 近邻 模型 对 forge 数据 集 的 预测 结果 








和 上 面 一 样 ， 预 测 结果 可 以 从 五 角 星 的 颜色 看 出 。 你 可 以 发 现 ,左上 角 新 数据 点 的 预测 结 
果 与 只 用 一 个 邻居 时 的 预测 结果 不 同 。 

虽然 这 张 图 对 应 的 是 一 个 二 分 类 问题 ， 但 方法 同样 适用 于 多 分 类 的 数据 集 。 对 于 多 分 类 问 
题 ， 我 们 数 一 数 每 个 类 别 分 别 有 多 少 个 邻居 ， 然 后 将 最 常见 的 类 别 作为 预测 结果 。 

现在 看 一 下 如 何 通 过 scikit-learn 来 应 用 k 近邻 算法 。 首 先 ， 正 如 第 1 章 所 述 ， 将 数据 分 
为 训练 集 和 测试 集 ， 以 便 评估 泛 化 性 能 : 

In[12]: 


from sklearn.model_selection import train test_split 
X, y = mglearn.datasets.make_forge() 








X_train, X_test, y_train, y_test = train test split(X, y, random_ state=0) 
然后 ， 导 入 类 并 将 其 实例 化 。 这 时 可 以 设 定 参数 ， 比 如 邻居 的 个 数 。 这 里 我 们 将 其 设 为 3: 


In[13] : 
from sklearn.neighbors import KNeighborsClassifier 
clf = KNeighborsClassifier(n_neighbors=3) 


现在 ， 利 用 训练 集 对 这 个 分 类 器 进行 拟 合 。 对 于 KNeighborsClassifier 来 说 就 是 保存 数据 
集 ， 以 便 在 预测 时 计算 与 邻居 之 间 的 距离 : 
In[14]: 

clf.fit(X_train, y_train) 
调用 predict 方法 来 对 测试 数据 进行 预测 。 对 于 测试 集中 的 每 个 数据 点 ， 都 要 计算 它 在 训 
练 集 的 最 近邻 ， 然 后 找 出 其 中 出 现 次 数 最 多 的 类 别 : 


In[15]: 
print("Test set predictions: {}".format(clf.predict(X_ test))) 











Out[15] : 

Test set predictions: [1010100] 
为 了 评估 模型 的 泛 化 能 力 好 坏 ， 我 们 可 以 对 测试 数据 和 测试 标签 调用 score 方法 : 
In[16]: 

print("Test set accuracy: {:.2f}".format(clf.score(X_test, y_test))) 
Out[16] : 

Test set accuracy: 0.86 
可 以 看 到 ， 我 们 的 模型 精度 约 为 8%， 也 就 是 说 ， 在 测试 数据 集中 ， 模 型 对 其 中 86% 的 
样本 预测 的 类 别 都 是 正确 的 。 
2. 分 析 KNeighborsClassifier 
对 于 二 维 数据 集 ， 我 们 还 可 以 在 xy 平面 上 画 出 所 有 可 能 的 测试 点 的 预测 结果 。 我 们 根据 
平面 中 每 个 点 所 属 的 类 别 对 平面 进行 着 色 。 这 样 可 以 查看 决策 边界 (decision boundary )， 
即 算 法 对 类 别 0 和 类 别 1 的 分 界线 。 
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下 列 代码 分 别 将 工 个 、3 个 和 9 个 邻居 三 种 情况 的 决策 边界 可 视 化 ， 见 图 2-6: 
In[17] : 
fig, axes = plt.subplots(1, 3, figsize=(10, 3)) 





for n_neighbors, ax in zip([1, 3, 9], axes): 
# fit 方 法 返回 对 象 本 身 ， 所 以 我 们 可 以 将 实例 化 和 拟 合 放 在 一 行 代码 中 
clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y) 
mglearn.plots.plot 2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alp 
mglearn.discrete_ scatter(X[:, 0], X[:, 1], y, ax=ax) 
ax.set title("{} neighbor(s)".format(n_neighbors)) 
ax.set xlabel("feature 0") 
ax.set_yLabeL(" feature 1") 
axes[0].Legend(Loc=3) 


ha=.4) 





1 neighbor(s) 3 neighbor(s) 9 neighbor(s) 





feature 1 
feature 1 
feature 1 


全 0 
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图 2-6: 不 同 n_neighbors 值 的 k 近邻 模型 的 决策 边界 
从 左 图 可 以 看 出 ， 使 用 单一 邻居 绘制 的 决策 边界 紧 跟着 训练 数据 。 随 着 邻居 


个 数 越 来 越 


多 ,决策 边界 也 越 来 越 平滑 。 更 平滑 的 边界 对 应 更 简单 的 模型 。 换 句 话 说 ， 使 用 更 少 的 邻 
居 对 应 更 高 的 模型 复杂 度 (如 图 2-1 右 侧 所 示 )， 而 使 用 更 多 的 邻居 对 应 更 低 的 模型 复杂 度 
(如 图 2-1 左 侧 所 示 )。 假 如 考虑 极端 情况 ， 即 邻居 个 数 等 于 训练 集中 所 有 数据 点 的 个 数 ， 





那么 每 个 测试 点 的 邻居 都 完全 相同 ( 即 所 有 训练 点 )， 所 有 预测 结果 也 完全 相 
集中 出 现 次 数 最 多 的 类 别 )。 


同 〔 即 训练 


我 们 来 研究 一 下 能 否 证 实 之 前 讨论 过 的 模型 复杂 度 和 泛 化 能 力 之 间 的 关系 。 我 们 将 在 现实 
世界 的 乳腺 癌 数 据 集 上 进行 研究 。 先 将 数据 集 分 成 训练 集 和 调试 集 ， 然 后 用 不 同 的 邻居 个 


数 对 训练 集 和 测试 集 的 性 能 进行 评估 。 输 出 结果 见 图 2-7: 


In[18] : 
from sklearn.datasets import Load_breast_cancer 





cancer = Load_breast_cancer() 
X_train, X_test, y_train, y_test = train test split( 
cancer .data, cancer.target, stratify=cancer.target, random state=66) 


training_accuracy = [] 
test_accuracy = [] 
# n_neighbors 取 值 从 1 到 10 


neighbors_settings = range(1, 11) 


for n_neighbors in neighbors_settings: 











# 构建 模型 
clf = KNeighborsClassifier(n_neighbors=n_neighbors) 
clf.fit(X_train, y_train) 

# 记录 训练 集 精度 


training_accuracy.append(clf.score(X_train, y_train)) 
# 记录 泛 化 精度 


test_accuracy.append(clf.score(X_ test, y_test)) 


plt.plot(neighbors_settings, training_accuracy, label="training accuracy") 
plt.plot(neighbors_settings, test accuracy, label="test accuracy") 
plt.ylabel("Accuracy") 

plt.xlabel("n_neighbors") 

plt. Legend() 


图 像 的 x 轴 是 n_neighbors，y 轴 是 训练 集 精度 和 测试 集 精度 。 虽 然 现实 世界 的 图 像 很 少 有 
非常 平滑 的 ， 但 我 们 仍 可 以 看 出 过 拟 合 与 欠 拟 合 的 一 些 特征 (注意 ， 由 于 更 少 的 邻居 对 应 
更 复杂 的 模型 ， 所 以 此 图 相对 于 图 2-1 做 了 水 平 翻转 )。 仅 考虑 单一 近邻 时 ， 训 练 集 上 的 预 
测 结果 十 分 完美 。 但 随 着 邻居 个 数 的 增多 ， 模 型 变 得 更 简单 ， 训 练 集 精度 也 随 之 下 降 。 单 
一 邻居 时 的 测试 集 精 度 比 使 用 更 多 邻居 时 要 低 ， 这 表示 单一 近邻 的 模型 过 于 复杂 。 与 之 相 
反 ， 当 考虑 10 个 邻居 时 ， 模 型 又 过 于 简单 ， 性 能 甚至 变 得 更 差 。 最 佳 性 能 在 中 间 的 某 处 ， 
邻居 个 数 大 约 为 6。 不 过 最 好 记 住 这 张 图 的 坐标 轴 刻 度 。 最 差 的 性 能 约 为 88% 的 精度 ， 这 
个 结果 仍然 可 以 接受 。 
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2-7: 以 n_neighbors 为 自 变量 ， 对 比 训练 集 精度 和 测试 集 精度 


3. k 近 邻 回 归 

k 近邻 算法 还 可 以 用 于 回归 。 我 们 还 是 先 从 单一 近邻 开始 ， 这 次 使 用 wave 数据 集 。 我 们 添 
加 了 3 个 测试 数据 点 ， 在 x 轴 上 用 绿色 五 角 星 表示 。 利 用 单一 邻居 的 预测 结果 就 是 最 近邻 
的 目标 值 。 在 图 2-8 中 用 蓝 色 五 角 星 表示 : 


















































In[19] : 


mglearn.plots.plot_knn_regression(n_neighbors=1) 
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2-8; 单一 近邻 回归 对 wave 数据 集 的 预测 结果 








同样 ， 也 可 以 用 多 个 近邻 进行 回归 。 在 使 用 多 个 近邻 时 ， 预 测 结果 为 这 些 邻 居 的 平均 值 
(图 2-9) : 
In[20] : 


mglearn.plots.plot_knn_regression(n_neighbors=3) 
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2-9: 3 个 近邻 回归 对 wave 数据 集 的 预测 结果 








用 于 回归 的 kk 近邻 算法 在 scikit-learn 的 KNeighborsRegressor 类 中 实现 。 其 用 法 与 
KNeighborsClassifier 类 似 : 





In[21]: 
from sklearn.neighbors import KNeighborsRegressor 


X, y = mglearn.datasets.make wave(n_samples=40) 


# 将 wave 数 据 集 分 为 训练 集 和 测试 集 


X_train, X_test, y_train, y_test = train test split(X, y, random_ state=0) 


# 模型 实例 化 ， 并 将 邻居 个 数 设 为 3 
reg = KNeighborsRegressor(n_neighbors=3) 
# 利用 训练 数据 和 训练 目标 值 来 拟 合 模型 


reg.fit(X_train, y_train) 
现在 可 以 对 测试 集 进行 预测 : 


In[22]: 
print("Test set predictions:\n{}".format(reg.predict(X_test))) 

















Out[22]: 
Test set predictions: 
[-0.054 0.357 1.137 -1.894 -1.139 -1.631 0.357 0.912 -0.447 -1.139] 


我 们 还 可 以 用 score 方法 来 评估 模型 ， 对 于 回归 问题 ， 这 一 方法 返回 的 是 R 分 数 。R 分 
数 也 叫 作 决 定 系数 ， 是 回归 模型 预测 的 优 度 度量 ， 位 于 0 到 1 之 间 。R 等 于 1 对 应 完美 预 
测 ，R” 等 于 0 对 应 常数 模型 ， 即 总 是 预测 训练 集 响应 (y_train) 的 平均 值 : 


In[23] : 
print("Test set R^2: {:.2f}".format(reg.score(X_ test, y_test))) 








Out[23] : 
Test set R^2: 0.83 


这 里 的 分 数 是 0.83， 表 示 模 型 的 拟 合 相对 较 好 。 
4. 分 析 KNeighborsRegressor 


对 于 我 们 的 一 维 数据 集 ， 可 以 查看 所 有 特征 取 值 对 应 的 预测 结果 (图 2-10)。 为 了 便于 绘 
图 ， 我 们 创建 一 个 由 许多 点 组 成 的 测试 数据 集 : 


In[24] : 

fig, axes = plt.subplots(1, 3, figsize=(15, 4)) 

# 创建 1006 个 数据 点 ， 在 -3 和 3 之 间 均 匀 分 布 

Line = np.linspace(-3, 3, 1000).reshape(-1, 1) 

for n_neighbors, ax in zip([1, 3, 9], axes): 
# 利用 1 个 、3 个 或 9 个 邻居 分 别 进行 预测 
reg = KNeighborsRegressor(n_neighbors=n_neighbors) 
reg.fit(X_train, y_train) 
ax.plot(line, reg.predict(line)) 
ax.plot(X_train, y_train, '^', c=mglearn.cm2(0), markersize=8) 


ax.plot(X_test, y_test, 'v', c=mglearn.cm2(1), markersize=8) 
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ax.set title( 
"{} neighbor(s)\n train score: {:.2f} test score: {:.2f}".format( 
n_neighbors, reg.score(X_train, y_train), 
reg.score(X_test, y_test))) 
ax.set xlabel("Feature") 
ax.set_ylabel("Target") 
axes[0].Legend(["ModeL predictions", "Training data/target", 
"Test data/target"], loc="best") 





1 neighbor(s) 3 neighbor(s) 9 neighbor(s) 
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图 2-10: 不 同 n_neighbors 值 的 k 近邻 回归 的 预测 结果 对 比 


从 图 中 可 以 看 出 ， 仅 使 用 单一 邻居 ， 训 练 集中 的 每 个 点 都 对 预测 结果 有 显著 影响 ， 预 测 结 
果 的 图 像 经 过 所 有 数据 点 。 这 导致 预测 结果 非常 不 稳定 。 考 虑 更 多 的 邻居 之 后 ， 预 测 结果 
变 得 更 加 平滑 ， 但 对 训练 数据 的 拟 合 也 不 好 。 


5. 优点 、 缺 点 和 参数 

一 般 来 说 ，KNeighbors 分 类 器 有 2 个 重要 参数 : 邻居 个 数 与 数据 点 之 间距 离 的 度量 方法 。 
在 实践 中 ， 使 用 较 小 的 邻居 个 数 〈 比 如 3 个 或 5 个 ) 往往 可 以 得 到 比较 好 的 结果 ， 但 你 应 
该 调节 这 个 参数 。 选 择 合适 的 距离 度量 方法 超出 了 本 书 的 范围 。 默 认 使 用 欧式 距离 ， 它 在 
许多 情况 下 的 效果 都 很 好 。 

k-NN 的 优点 之 一 就 是 模型 很 容易 理解 ， 通 常 不 需要 过 多 调节 就 可 以 得 到 不 错 的 性 能 。 在 
考虑 使 用 更 高 级 的 技术 之 前 ， 尝 试 此 算法 是 一 种 很 好 的 基准 方法 。 构 建 最 近邻 模型 的 速度 
通常 很 快 ， 但 如 果 训 练 集 很 大 (特征 数 很 多 或 者 样本 数 很 大 )， 预 测速 度 可 能 会 比较 慢 。 
使 用 k-NN 算法 时 ， 对 数据 进行 预 处 理 是 很 重要 的 〈 见 第 3 章 )。 这 一 算法 对 于 有 很 多 特 
征 〈 几 百 或 更 多 ) 的 数据 集 往往 效果 不 好 ， 对 于 大 多 数 特征 的 大 多 数 取 值 都 为 0 的 数据 集 
(所 谓 的 稀疏 数据 集 ) 来 说 ， 这 一 算法 的 效果 尤其 不 好 。 

虽然 k 近 邻 算法 很 容易 理解 ， 但 由 于 预测 速度 慢 且 不 能 处 理 具有 很 多 特征 的 数据 集 ， 所 以 
在 实践 中 往往 不 会 用 到 。 下 面 介绍 的 这 种 方法 就 没有 这 两 个 缺点 。 


2.3.3 ”线性 模型 
线性 模型 是 在 实践 中 广泛 使 用 的 一 类 模型 ， 几 十 年 来 被 广泛 研究 ， 它 可 以 追溯 到 一 百 多 年 
前 。 线 性 模型 利用 输入 特征 的 线性 函数 〈linear function) 进行 预测 ， 稍 后 会 对 此 进行 解释 。 
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1. 用 于 回归 的 线性 模型 
对 于 回归 问题 ， 线 性 模型 预测 的 一 般 公 式 如 下 : 

B=w[O]l * x[O] + w{1l] * x[1] + + wlp] * x[p] +b 
这 里 x[0] 到 x[p] 表示 单个 数据 点 的 特征 (本 例 中 特征 个 数 为 pt1)，w 和 4。 是 学 习 模 型 的 
参数 , 了 是 模型 的 预测 结果 。 对 于 单一 特征 的 数据 集 ， 公 式 如 下 : 

$=w[0] * x[0] +b 
你 可 能 还 记得 ， 这 就 是 高 中 数学 里 的 直线 方程 。 这 里 w[0] 是 斜率 ，b 是 了 轴 偏 移 。 对 于 有 
更 多 特征 的 数据 集 ，w 包含 沿 每 个 特征 坐标 轴 的 斜率 。 或 者 ， 你 也 可 以 将 预测 的 响应 值 看 
作 输 入 特征 的 加 权 求 和 ， 权 重 由 w 的 元 素 给 出 (可 以 取 负 值 )。 
下 列 代码 可 以 在 一 维 wave 数据 集 上 学 习 参 数 w[0] 和 2b: 


In[25]: 
mglearn.plots.plot_linear_regression wave() 





























Out[25] : 
w[0]: 0.393906 b: -0.031804 
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2-11: 线性 模型 对 wave 数据 集 的 预测 结果 
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我 们 在 图 中 添加 了 坐标 网 格 ， 便 于 理解 直线 的 含义 。 从 w[9] 可 以 看 出 ， 斜 率 应 该 在 0.4 左 
右 ， 在 图 像 中 也 可 以 直观 地 确认 这 一 点 。 截 距 是 指 预测 直线 与 y 轴 的 交点 : 比 0 略 小 ,也 
可 以 在 图 像 中 确认 。 


用 于 回归 的 线性 模型 可 以 表示 为 这 样 的 回归 模型 : 对 单一 特征 的 预测 结果 是 一 条 直线 ， 两 
个 特征 时 是 一 个 平面 ， 或 者 在 更 高 维度 〈 即 更 多 特征 ) 时 是 一 个 超 平面 。 


如 果 将 直线 的 预测 结果 与 图 2-10 中 KNeighborsRegressor 的 预测 结果 进行 比较 ， 你 会 发 现 
直线 的 预测 能 力 非 常 受 限 。 似 乎 数据 的 所 有 细节 都 丢失 了 。 从 某 种 意义 上 来 说 ， 这 种 说 法 
是 正确 的 。 假 设 目 标 y 是 特征 的 线性 组 合 ， 这 是 一 个 非常 强 的 (也 有 点 不 现实 的 ) 假设 。 
但 观察 一 维 数据 得 出 的 观点 有 些 片 面 。 对 于 有 多 个 特征 的 数据 集 而 言 ， 线 性 模型 可 以 非常 
强大 。 特 别 地 ， 如 果 特 征 数量 大 于 训练 数据 点 的 数量 ， 任 何 目标 y 都 可 以 (在 训练 集 上 ) 
用 线性 函数 完美 拟 合 “。 
有 许多 不 同 的 线性 回归 模型 。 这 些 模型 之 间 的 区 别 在 于 如 何 从 训练 数据 中 学 习 参 数 w 和 
5b， 以 及 如 何 控制 模型 复杂 度 。 下 面 介绍 最 常见 的 线性 回归 模型 。 
2. 线性 回归 (又 名 普通 最 小 二 乘法 ) 
线性 回归 ， 或 者 普通 最 小 二 乘法 (ordinary least squares，OLS)， 是 回归 问题 最 简单 也 最 经 
典 的 线性 方法 。 线 性 回归 寻找 参数 w 和 b， 使 得 对 训练 集 的 预测 值 与 真实 的 回归 目标 值 y 
之 间 的 均 方 误差 最 小 。 均 方 误差 (mean squared error) 是 预测 值 与 真实 值 之 差 的 平方 和 除 
以 样本 数 。 线 性 回归 没有 参数 ， 这 是 一 个 优点 ， 但 也 因此 无 法 控制 模型 的 复杂 度 。 
下 列 代码 可 以 生成 图 2-11 中 的 模型 ; 
In[26]: 

from sklearn.linear_model import LinearRegression 


X, y = mglearn.datasets.make_wave(n_samples=60) 
X_train, X_test, y_train, y_test = train test_split(X, y, random_state=42) 























































































































lr = LinearRegression().fit(X_train, y_train) 


“斜率 ”参数 (w， 也 叫 作 权重 或 系数 ) 被 保存 在 coef_ 属性 中 ， 而 偏 移 或 截 距 (5) 被 保 
存在 intercept_ 属性 中 : 
In[27] : 


print("Lr.coef_: {}".format(lr.coef_)) 
print("Lr.intercept_: {}" .format(Lr.intercept_)) 





Out[27] : 
Lr.coef : [ 0.394] 
lr.intercept_: -0.031804343026759746 


你 可 能 注意 到 了 coef_ 和 intercept_ 结尾 处 奇怪 的 下 划 线 。scikit-learn 


总 是 将 从 训练 数据 中 得 出 的 值 保 存在 以 下 划 线 结尾 的 属性 中 。 这 是 为 了 将 其 
与 用 户 设置 的 参数 区 分 开 。 




















注 6: 如 果 你 懂 一 点 线性 代数 的 话 ， 很 容易 理解 这 一 点 。 








intercept_ 属性 是 一 个 浮 点 数 ， 而 coef_ 属性 是 一 个 NumPy 数组 ， 每 个 元 素 对 应 一 个 输 
入 特征 。 由 于 wave 数据 集中 只 有 一 个 输入 特征 ， 所 以 Lr.coef_ 中 只 有 一 个 元 素 。 
我 们 来 看 一 下 训练 集 和 测试 集 的 性 能 


In[28]: 
print("Training set score: {:.2f}".format(lr.score(X_train, y_train))) 
print("Test set score: {:.2f}".format(lr.score(X_test, y_test))) 











Out[28] : 
Training set Score: 0.67 
Test set Score: 0.66 


R 约 为 0.66， 这 个 结果 不 是 很 好 ， 但 我 们 可 以 看 到 ， 训 练 集 和 测试 集 上 的 分 数 非 常 接近 。 
这 说 明 可 能 存在 欠 拟 合 ， 而 不 是 过 拟 合 。 对 于 这 个 一 维 数据 集 来 说 ， 过 拟 合 的 风险 很 小 ， 
因为 模型 非常 简单 (或 受 限 )。 然 而 ， 对 于 更 高 维 的 数据 集 〈 即 有 大 量 特征 的 数据 集 )， 线 
性 模型 将 变 得 更 加 强大 ， 过 拟 合 的 可 能 性 也 会 变 大 。 我 们 来 看 一 下 LinearRegression 在 更 

复杂 的 数据 集 上 的 表现 ， 比 如 波士顿 房价 数据 集 。 记 住 ， 这 个 数据 集 有 506 个 样本 和 105 
个 导出 特征 。 首 先 ， 加 载 数据 集 并 将 其 分 为 训练 集 和 测试 集 。 然 后 像 前 面 一 样 构建 线性 回 
归 模 型 ; 
In[29] : 

X，y = mglearn.datasets. load_extended_boston() 











X_train, X_test, y_train, y_test = train test_split(X, y, random_state=0) 

Lr = LinearRegression().fit(X_ train, y_train) 
比较 一 下 训练 集 和 测试 集 的 分 数 就 可 以 发 现 ， 我 们 在 训练 集 上 的 预测 非常 准确 ， 但 测试 集 
上 的 R* 要 低 很 多 : 


In[30]: 
print("Training set score: {:.2f}".format(lr.score(X_train, y_train))) 
print("Test set score: {:.2f}".format(lr.score(X_test, y_test))) 








Out[30]: 
Training set score: 0.95 
Test set score: 0.61 


训练 集 和 测试 集 之 间 的 性 能 差异 是 过 拟 合 的 明显 标志 ， 因 此 我 们 应 该 试图 找到 一 个 可 以 控 
制 复杂 度 的 模型 。 标 准 线性 回归 最 常用 的 禁 代 方 法 之 一 就 是 岭 回 归 (ridge regression) ， 下 
面 来 看 一 下 。 


3. 岭 回归 

难 回 归 也 是 一 种 用 于 回归 的 线性 模型 ， 因 此 它 的 预测 公式 与 普通 最 小 二 乘法 相同 。 但 在 岭 
回归 中 ， 对 系数 (w) 的 选择 不 仅 要 在 训练 数据 上 得 到 好 的 预测 结果 ， 而 且 还 要 拟 合 附加 
约束 。 我 们 还 希望 系数 尽量 小 。 换 名 话说 ，w 的 所 有 元 素 都 应 接近 于 0。 直 观 上 来 看 ， 这 
意味 着 每 个 特征 对 输出 的 影响 应 尽 可 能 小 ( 即 斜率 很 小 )， 同 时 仍 给 出 很 好 的 预测 结果 。 
这 种 约束 是 所 谓 正则 化 (regularization) 的 一 个 例子 。 正 则 化 是 指 对 模型 做 显 式 约束 ， 以 


















































避免 过 拟 合 。 岭 回归 用 到 的 这 种 被 称 为 L2 正则 化 。” 
岭 回 归 在 linear_model.Ridge 中 实现 。 来 看 一 下 它 对 扩展 的 波士顿 房价 数据 集 的 效 
果 如 何 : 


In[31]: 
from sklearn.linear_model import Ridge 











ridge = Ridge().fit(X_ train, y_train) 
print("Training set score: {:.2f}".format(ridge.score(X_ train, y_train))) 
print("Test set score: {:.2f}".format(ridge.score(X_test, y_test))) 


Out[31] : 
Training set score: 0.89 
Test set score: 0.75 


可 以 看 出 ，Ridge 在 训练 集 上 的 分 数 要 低 于 LinearRegression， 但 在 测试 集 上 的 分 数 更 高 。 
这 和 我 们 的 预期 一 致 。 线 性 回归 对 数据 存在 过 拟 合 。Ridge 是 一 种 约束 更 强 的 模型 ， 所 以 
更 不 容易 过 拟 合 。 复 杂 度 更 小 的 模型 意味 着 在 训练 集 上 的 性 能 更 差 ， 但 泛 化 性 能 更 好 。 由 
于 我 们 只 对 谤 化 性 能 感 兴趣 ， 所 以 应 该 选择 Ridge 模型 而 不 是 LinearRegression 模型 。 


Ridge 模型 在 模型 的 简单 性 (系数 都 接近 于 0) 与 训练 集 性 能 之 间 做 出 权衡 。 简 单 性 和 训练 
集 性 能 二 者 对 于 模型 的 重要 程度 可 以 由 用 户 通 过 设置 aLpha 参数 来 指定 。 在 前 面 的 例子 中 ， 
我 们 用 的 是 默认 参数 aLpha=1.6。 但 没有 理由 认为 这 会 给 出 最 佳 权衡 。atpha 的 最 佳 设 定 
值 取决 于 用 到 的 具体 数据 集 。 增 大 alpha 会 使 得 系数 更 加 趋向 于 0， 从 而 降低 训练 集 性 能 ， 
但 可 能 会 提高 泛 化 性 能 。 例 如 : 
In[32] : 

ridge10 = Ridge(alpha=10).fit(X_train, y_train) 


print("Training set score: {:.2f}".format(ridge10.score(X_train, y_train))) 
print("Test set score: {:.2f}".format(ridge10.score(X_test, y_test))) 
































Out[32] : 
Training set score: 0.79 
Test set Score: 0.64 


减 小 aLpha 可 以 让 系数 受到 的 限制 更 小 ， 即 在 图 2-1 中 向 右 移动 。 对 于 非常 小 的 aLpha 值 ， 
系数 几乎 没有 受到 限制 ， 我 们 得 到 一 个 与 LinearRegression 类 似 的 模型 : 


In[33]: 
ridge01 = Ridge(alpha=0.1).fit(X_train, y_train) 
print("Training set score: {:.2f}".format(ridge01.score(X_ train, y_train))) 
print("Test set score: {:.2f}".format(ridge01.score(X test, y_test))) 





Out[33] : 
Training set score: 0.93 
Test set Score: 0.77 








注 7: 从 数学 的 观点 来 看 ，Ridge 惩罚 了 系数 的 L2 范 数 或 w 的 欧式 长 度 。 








里 atpha=6.1 似乎 效果 不 错 。 我 们 可 以 尝试 进一步 减 小 aLpha 以 提高 泛 化 性 能 。 现 在 ， 注 
参数 alpha 与 图 2-1 中 的 模型 复杂 度 的 对 应 关系 。 第 5 章 将 会 讨论 选择 参数 的 正确 方法 。 


我 们 还 可 以 查看 alpha 取 不 同 值 时 模型 的 coef_ 属性 ， 从 而 更 加 定性 地 理解 aLpha 参数 是 
如 何 改 变 模型 的 。 更 大 的 alpha 表示 约束 更 强 的 模型 ， 所 以 我 们 预计 大 alpha 对 应 的 coef_ 
元 素 比 小 alpha 对 应 的 coef_ 元 素 要 小 。 这 一 点 可 以 在 图 2-12 中 得 到 证 实 : 


In[34] : 
plt.plot(ridge.coef_ , 's', label="Ridge alpha=1") 
plt.plot(ridge1i0.coef_, '^', label="Ridge alpha=10") 
plt.plot(ridgeQ1.coef_, 'v', label="Ridge alpha=0.1") 





nt bx 











plt.plot(lr.coef_, 'o', label="LinearRegression") 
plt.xlabel("Coefficient index") 
plt.ylabel("Coefficient magnitude") 

plt.hlines(0, 0, len(lr.coef_ )) 

plt.ylim(-25, 25) 

plt. Legend() 
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2-12: 不 同 alpha 值 的 怜 回 归 与 线性 回归 的 系数 比较 


这 里 x 轴 对 应 coef_ 的 元 素 : x=9 对 应 第 一 个 特征 的 系数 ，x=1 对 应 第 二 个 特征 的 系数 ， 以 
此 类 推 ， 一 直到 x=169。y 轴 表 示 该 系数 的 具体 数值 。 这 里 需要 记 住 的 是 ， 对 于 aLpha=10， 
系数 大 多 在 -3 和 3 之 间 。 对 于 alpha=1 的 Ridge 模型 ， 系 数 要 稍 大 一 点 。 对 于 aLpha=0.1， 
点 的 范围 更 大 。 对 于 没有 做 正则 化 的 线性 回归 ( 即 alpha=0)， 点 的 范围 很 大 ， 许 多 点 都 超 
出 了 图 像 的 范围 。 


还 有 一 种 方法 可 以 用 来 理解 正则 化 的 影响 ， 就 是 固定 atpha 值 ， 但 改变 训练 数据 量 。 对 于 
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图 2-13 来 说 ， 我 们 对 波士顿 房价 数据 集 做 二 次 抽样 ， 并 在 数据 量 逐 渐 增加 的 子 数据 集 上 分 
别 对 LinearRegression 和 Ridge(alpha=1) 两 个 模型 进行 评估 (将 模型 性 能 作为 数据 集 大 小 
的 函数 进行 绘图， 这 样 的 图 像 叫 作 学 习 曲 线 ) : 

In[35]: 

mglearn.plots.plot_ridge _n_samples() 














= 一 training Ridge == training LinearRegression 
一 一 test Ridge 一 一 test LinearRegression 


2 
On 


Score (R^ 人 2) 


己 
丰 





0 100 200 300 400 500 
Training set size 











图 2-13: 怜 回 归 和 线性 回归 在 波士顿 房价 数据 集 上 的 学 习 曲 线 


正如 所 预计 的 那样 ， 无 论 是 岭 回 归还 是 线性 回归 ， 所 有 数据 集 大 小 对 应 的 训练 分 数 都 要 高 
于 测试 分 数 。 由 于 岭 回 归 是 正则 化 的 ， 因 此 它 的 训练 分 数 要 整体 低 于 线性 回归 的 训练 分 
数 。 但 岭 回归 的 测试 分 数 要 更 高 ， 特 别 是 对 较 小 的 子 数据 集 。 如 果 少 于 400 个 数据 点 ， 线 
性 回归 学 不 到 任何 内 容 。 随 着 模型 可 用 的 数据 越 来 越 多 ， 两 个 模型 的 性 能 都 在 提升 ， 最 终 
线性 回归 的 性 能 追 上 了 岭 回归 。 这 里 要 记 住 的 是 ， 如 果 有 足够 多 的 训练 数据 ， 正 则 化 变 得 
不 那么 重要 ， 并 且 岭 回归 和 线性 回归 将 具有 相同 的 性 能 (在 这 个 例子 中 ， 二 者 相同 恰好 发 
生 在 整个 数据 集 的 情况 下 ， 这 只 是 一 个 巧合 )。 图 2-13 中 还 有 一 个 有 趣 之 处 ， 就 是 线性 
归 的 训练 性 能 在 下 降 。 如 果 添 加 更 多 数据 ， 模 型 将 更 加 难以 过 拟 合 或 记 住所 有 的 数据 。 
4. lasso 

除了 Ridge， 还 有 一 种 正则 化 的 线性 回归 是 Lasso。 与 岭 回 归 相 同 ， 使 用 lasso 也 是 约束 系 
数 使 其 接近 于 0， 但 用 到 的 方法 不 同 ， 叫 作 LI 正则 化 。LI1 正则 化 的 结果 是 ， 使 用 lasso 时 
某 些 系数 刚好 为 0。 这 说 明 某 些 特 征 被 模型 完全 忽略 。 这 可 以 看 作 是 一 种 自动 化 的 特征 选 
择 。 某 些 系数 刚好 为 0， 这 样 模型 更 容易 解释 ， 也 可 以 呈现 模型 最 重要 的 特征 。 
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注 8: lasso 惩罚 系数 向 量 的 LI 范 数 ， 换 句 话 说， 系数 的 绝对 值 之 和 。 








我 们 将 lasso 应 用 在 扩展 的 波士顿 房价 数据 集 上 : 


In[36] : 
from sklearn.linear_model import Lasso 


Lasso = Lasso().fit(X_train, y_train) 

print("Training set score: {:.2f}".format(lasso.score(X_train, y_train))) 
print("Test set score: {:.2f}".format(lasso.score(X_ test, y_test))) 
print("Number of features used: {}".format(np.sum(lasso.coef_ != 0))) 


Out[36]: 
Training set score: 0.29 
Test set score: 0.21 
Number of features used: 4 


如 你 所 见 ，Lasso 在 训练 集 与 测试 集 上 的 表现 都 很 差 。 这 表示 存在 欠 拟 合 ， 我 们 发 现 模 型 
只 用 到 了 105 个 特征 中 的 4 个 。 与 Ridge 类 似 ，Lasso 也 有 一 个 正则 化 参数 alpha， 可 以 控 
制 系数 趋向 于 0 的 强度 。 在 上 一 个 例子 中 ， 我 们 用 的 是 默认 值 aLpha=1.0。 为 了 降低 欠 拟 
合 ， 我 们 尝试 减 小 alpha。 这 么 做 的 同时 ， 我 们 还 需要 增加 max_iter 的 值 《运行 迭代 的 最 
大 次 数 ) : 
In[37]: 


# 我 们 增 大 max_iter 的 值 ， 否 则 模型 会 警告 我 们 ， 说 应 该 增 大 max_iter 

Lasso001 = Lasso(alpha=0.01, max_iter=100000).fit(X_train, y_train) 
print("Training set score: {:.2f}".format(lasso001.score(X_train, y_train))) 
print("Test set score: {:.2f}".format(lasso001.score(X_test, y_test))) 
print("Number of features used: {}".format(np.sum(lasso001.coef_ != 0))) 














Out[37] : 
Training set Score: 0.90 
Test set Score: 0.77 
Number of features used: 33 


alpha 值 变 小 ， 我 们 可 以 拟 合 一 个 更 复杂 的 模型 ， 在 训练 集 和 测试 集 上 的 表现 也 更 好 。 模 
型 性 能 比 使 用 Ridge 时 略 好 一 点 ， 而 且 我 们 只 用 到 了 105 个 特征 中 的 33 个 。 这 样 模型 可 能 
更 容易 理解 。 


但 如 果 把 aLpha 设 得 大小， 那么 就 会 消除 正则 化 的 效果 ， 并 出 现 过 拟 合 ， 得 到 与 
LinearRegression 类 似 的 结果 : 


In[38]: 
lasso00001 = Lasso(alpha=0.0001, max_iter=100000).fit(X_train, y_train) 
print("Training set score: {:.2f}".format(lasso00001.score(X_train, y_train))) 
print("Test set score: {:.2f}".format(lasso00001.score(X_test, y_test))) 
print("Number of features used: {}".format(np.sum(lasso00001.coef_ != 0))) 





























Out[38]: 
Training set score: 0.95 
Test set score: 0.64 
Number of features used: 94 


再 次 像 图 2-12 那样 对 不 同 模 型 的 系数 进行 作 图 ， 见 图 2-14: 
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In[39] : 


plt.plot(lasso.coef_, 's', label="Lasso alpha=1") 


plt.plot(lasso001.coef_, '^', label="Lasso 


alpha=0.01") 


plt.plot(lasso00001.coef_, 'v', label="Lasso alpha=0.0001") 


plt.plot(ridge01.coef_, 'o', label="Ridge alpha=0.1") 


plt.legend(ncol=2, loc=(0, 1.05)) 
plt.ylim(-25, 25) 
plt.xlabel("Coefficient index") 
plt.ylabel("Coefficient magnitude") 
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2-14: 不 同 alpha 值 的 lasso 回归 与 岭 回归 的 系数 比较 


在 alpha=1 时 ， 我 们 发 现 不 仅 大 部 分 系数 都 是 
数 也 都 很 小 。 将 alpha 减 小 至 0.01， 我 们 得 到 





alpha=0.0901 时 ， 我 们 得 到 正则 化 很 弱 的 模型 ， 








0 (我 们 已 经 知道 这 一 点 )， 而 且 其 他 系 
图 中 向 上 的 三 角形 ， 大 部 分 特征 等 于 0。 





大 部 分 系数 都 不 为 0， 并 且 还 很 大 。 为 





了 便于 比较 ， 图 中 用 圆 形 表示 Ridge 的 最 佳 结果 。alLpha=0.1 的 Ridge 模型 的 预测 性 能 与 
alpha=0.01 的 Lasso 模型 类 似 ， 但 Ridge 模型 的 所 有 系数 都 不 为 0。 




















在 实践 中 ， 在 两 个 模型 中 一 般 首选 岭 回归 。 但 如 果 特 征 很 多 ， 你 认为 只 有 其 中 几 个 是 重要 


的 ， 那 么 选择 Lasso 可 能 更 好 。 同 样 ， 如 果 你 想 要 一 个 容易 解释 的 模型 ，Lasso 可 以 给 出 
更 容易 理解 的 模型 ， 因 为 它 只 选择 了 一 部 分 输入 特征 。scikit-learn 还 提供 了 ELasticNet 











类 ， 结 合 了 Lasso 和 Ridge 的 征 罚 项 。 在 实践 中 





， 这 种 结合 的 效果 最 好 ， 不 过 代价 是 要 调 


市 两 个 参数 : 一 个 用 于 LI1 正则 化 ， 一 个 用 于 L2 正则 化 。 





5. 用 于 分 类 的 线性 模型 
线性 模型 也 广泛 应 用 于 分 类 问题 。 我 们 首先 来 看 二 分 类 。 这 时 可 以 利用 下 面 的 公式 进行 
预测 : 





p=w[O] * x[O0] + wll] * x[l] + *…+wlp] * xl[p] +b>0 


这 个 公式 看 起 来 与 线性 回归 的 公式 非常 相似 ， 但 我 们 没有 返回 特征 的 加 权 求 和 ， 而 是 为 预 
测 设置 了 国 值 (0)。 如 果 函 数值 小 于 0， 我们 就 预测 类 别 -1， 如 果 函 数值 大 于 0， 我 们 就 
预测 类 别 +1。 对 于 所 有 用 于 分 类 的 线性 模型 ， 这 个 预测 规则 都 是 通用 的 。 同 样 ， 有 很 多 种 
不 同 的 方法 来 找 出 系数 (w) 和 截 距 (5b)。 

对 于 用 于 回归 的 线性 模型 ， 输 出 了 是 特征 的 线性 函数 ， 是 直线 、 平 面 或 超 平面 (对 于 更 高 
维 的 数据 集 )。 对 于 用 于 分 类 的 线性 模型 ， 决 策 边界 是 输入 的 线性 函数 。 换 句 话 说 ，( 二 
元 ) 线性 分 类 器 是 利用 直线 、 平 面 或 超 平面 来 分 开 两 个 类 别 的 分 类 器 。 本 节 我 们 将 看 到 这 
方面 的 例子 。 

学 习 线 性 模型 有 很 多 种 算法 。 这 些 算法 的 区 别 在 于 以 下 两 点 : 

。 系数 和 截 距 的 特定 组 合 对 训练 数据 拟 合 好 坏 的 度量 方法 ; 

。 是 否 使 用 正则 化 ， 以 及 使 用 哪 种 正则 化 方法 。 

不 同 的 算法 使 用 不 同 的 方法 来 度量 “对 训练 集 拟 合 好 坏 ”。 由 于 数学 上 的 技术 原因 ， 不 可 
能 调节 ww 和 5。 使 得 算法 产生 的 误 分 类 数量 最 少 。 对 于 我 们 的 目的 ， 以 及 对 于 许多 应 用 而 
言 ， 上 面 第 一 点 〈 称 为 损失 函数 ) 的 选择 并 不 重要 。 

最 常见 的 两 种 线性 分 类 算法 是 Logistic 回归 (logistic regression) 和 线性 支持 向 量 机 (linear 
support vector machine， 线 性 SVM)， 前 者 在 Linear_model.LogisticRegression 中 实现 ， 
后 者 在 svm.LinearsvC (SVC 代表 支持 向 量 分 类 器 ) 中 实现 。 虽 然 LogisticRegression 
的 名 字 中 含有 回归 (regression)， 但 它 是 一 种 分 类 算法 ， 并 不 是 回归 算法 ， 不 应 与 
LinearRegression 混淆 。 

我 们 可 以 将 LogisticRegression 和 LinearSVC 模型 应 用 到 forge 数据 集 上 ， 并 将 线性 模型 
找到 的 决策 边界 可 视 化 (图 2-15) : 

In[40] : 


from sklearn.linear_model import LogisticRegression 
from sklearn.svm import LinearSVC 














































































































X，y = mglearn.datasets.make_forge() 
fig, axes = plt.subplots(1, 2, figsize=(10, 3)) 


for model, ax in zip([LinearSVC(), LogisticRegression()], axes): 
clf = model.fit(X, y) 
mglearn.plots.plot_2d_separator(clf, Xx, fill=False, eps=0.5, 

ax=ax，aLpha=.7) 

mglearn.discrete_scatter(X[:, 0], X[:, 1], y, ax=ax) 
ax.set title("{}".format(clf._ class _.__name )) 
ax.set xlabel("Feature 0") 
ax.set_ylabel("Feature 1") 

axes[0].Legend() 
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图 2-15: 线性 SVM 和 Logistic 回归 在 forge 数据 集 上 的 决策 边界 〈 均 为 默认 参数 ) 


在 这 张 





图 中 ，forge 数据 集 的 第 一 个 特征 














位 于 x 轴 ， 第 二 个 特征 
图 中 分 别 展示 了 LinearSVC 和 LogisticRegression 得 到 的 决策 边界 ， 都 是 直线 ， 将 顶部 归 





位 于 轴 ， 与 前 





面相 同 。 











为 类 别 1 的 区 域 和 底部 归 为 类 别 0 的 区 域 分 开 了 。 换 句 话 说 ， 对 于 每 个 分 类 器 而 言 ， 位 于 


黑 线 上 方 的 新 数据 点 都 会 被 划 为 类 别 
两 个 模型 得 
型 都 默认 使 用 L2 正则 化 ， 就 像 Ridge 对 回 
对 于 LogisticRegression 和 LinearSVC， 
大 ， 对 应 的 正则 化 越 弱 。 换 名 话说 ， 如 果 
LinearsVC 将 尽 可 能 将 训练 集 拟 合 到 最 好 ， 而 如 果 5 值 
(w) 接近 于 0。 


人 


归 所 做 的 那样 。 






































较 小 ， 


1， 而 在 黑 线 下 方 的 点 都 会 被 划 为 类 别 0 
到 了 相似 的 决策 边界 。 注 意 ， 两 个 模型 中 都 有 两 个 点 的 分 类 是 错误 的 。 两 个 模 


决定 正则 化 强度 的 权衡 参数 叫 作 c。cC 值 





越 











参数 C 值 较 大 ， 那 么 LogisticRegression 和 
那么 模型 更 强调 使 系数 向 量 


参数 5 的 作用 还 有 另 一 个 有 趣 之 处 。 较 小 的 5 值 可 以 让 算法 尽量 适应 “大 多 数 ” 数 据点 ， 









































而 较 大 的 C 值 更 强调 每 个 数据 点 都 分 类 正确 的 重要 性 。 下 面 是 使 用 Linearsvc 的 图 示 
(图 2-16): 
In[41]: 
mglearn.plots.plot_linear_svc_regularization() 
C= 0.010000 C= 1.000000 C = 100.000000 
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图 2-16: 不 同 C 值 的 线性 SVM 在 forge 数据 集 上 的 决策 边界 
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在 左 侧 的 图 中 ,5 值 很 小 ， 对 应 强 正则 化 。 大 部 分 属于 类 别 0 的 点 都 位 于 底部 ， 大 部 分 属 
于 类 别 1 的 点 都 位 于 顶部 。 强 正则 化 的 模型 会 选择 一 条 相对 水 平 的 线 ， 有 两 个 点 分 类 错 
误 。 在 中 间 的 图 中 ,5 值 稍 大 ， 模 型 更 关注 两 个 分 类 错误 的 样本 ， 使 决策 边界 的 斜率 变 大 。 
最 后 ， 在 右 侧 的 图 中 ， 模 型 的 5 值 非常 大 ， 使 得 决策 边界 的 斜率 也 很 大 ， 现 在 模型 对 类 
别 0 中 所 有 点 的 分 类 都 是 正确 的 。 类 别 1 中 仍 有 一 个 点 分 类 错误 ， 这 是 因为 对 这 个 数据 集 
来 说 ， 不 可 能 用 一 条 直线 将 所 有 点 都 分 类 正确 。 右 侧 图 中 的 模型 尽量 使 所 有 点 的 分 类 都 正 
确 ， 但 可 能 无 法 掌握 类 别 的 整体 分 布 。 换 句 话 说， 这 个 模型 很 可 能 过 拟 合 。 


与 回归 的 情况 类 似 ， 用 于 分 类 的 线性 模型 在 低 维 空间 中 看 起 来 可 能 非常 受 限 ， 决 策 边界 只 
能 是 直线 或 平面 。 同 样 ， 在 高 维 空间 中 ， 用 于 分 类 的 线性 模型 变 得 非常 强大 ， 当 考虑 更 多 
特征 时 ， 避 免 过 拟 合 变 得 越 来 越 重 要 。 


我 们 在 乳腺 癌 数 据 集 上 详细 分 析 LogisticRegression: 


In[42] : 
from sklearn.datasets import Load_breast_cancer 
cancer = Load_breast_cancer() 
X_train, X_test, y_train, y_test = train test_ split( 
cancer .data, cancer.target, stratify=cancer.target, random_state=42) 
Logreg = LogisticRegression().fit(X_train, y_train) 
print("Training set score: {:.3f}".format(logreg.score(X_ train, y_train))) 
print("Test set score: {:.3f}".format(logreg.score(X_test, y_test))) 

































































Out[42] : 
Training set Score: 0.953 
Test set Score: 0.958 


C=1 的 默认 值 给 出 了 相当 好 的 性 能 ， 在 训练 集 和 测试 集 上 都 达到 95% 的 精度 。 但 由 于 训练 
集 和 测试 集 的 性 能 非常 接近 ， 所 以 模型 很 可 能 是 欠 拟 合 的 。 我 们 尝试 增 大 CcC 来 拟 合 一 个 更 
灵活 的 模型 ; 
In[43] : 

Logreg100 = LogisticRegression(C=100).fit(X_train, y_train) 


print("Training set score: {:.3f}".format(logreg100.score(X_train, y_train))) 
print("Test set score: {:.3f}".format(logreg100.score(X_test, y_test))) 


Out[43] : 
Training set score: 0.972 
Test set score: 0.965 


使 用 c=169 可 以 得 到 更 高 的 训练 集 精度 ， 也 得 到 了 稍 高 的 测试 集 精度 ， 这 也 证 实 了 我 们 的 
直觉 ， 即 更 复杂 的 模型 应 该 性 能 更 好 。 
我 们 还 可 以 研究 使 用 正则 化 更 强 的 模型 时 会 发 生 什么 。 设 置 c=0.01; 
In[44]: 
Logreg001 = LogisticRegression(C=0.01).fit(X_train, y_train) 


print("Training set score: {:.3f}".format(logreg001.score(X_train, y_train))) 
print("Test set score: {:.3f}".format(logreg001.score(X_test, y_test))) 




















Out[44] : 
Training set score: 0.934 
Test set Score: 0.930 


正如 我 们 所 料 ， 在 图 2-1 中 将 已 经 众 拟 合 的 模型 继续 向 左 移动 ， 训 练 集 和 测试 集 的 精度 都 
比 采 用 默认 参数 时 更 小 。 


最 后 ， 来 看 一 下 正则 化 参数 5 取 三 个 不 同 的 值 时 模型 学 到 的 系数 (图 2-17) : 


In[45] : 
plt.plot(logreg.coef_.T, 'o', label="C=1") 
plt.plot(logreg100.coef_.T, '^', label="C=100") 
plt.plot(logreg001.coef_.T, 'v', label="C=0.001") 
plt.xticks(range(cancer.data.shape[1]), cancer.feature_names, rotation=90) 
plt.hlines(0, 0, cancer.data.shape[1]) 
plt.ylim(-5, 5) 
plt.xlabel("Coefficient index") 
plt.ylabel("Coefficient magnitude") 
plt. legend() 
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图 2-17: 不 同 5 值 的 Logistic 回归 在 乳腺 总 数据 集 上 学 到 的 系数 
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由 于 LogisticRegression 默认 应 用 L2 正则 化 ， 所 以 其 结果 与 图 2-12 中 
Ridge 的 结果 类 似 。 更 强 的 正则 化 使 得 系数 更 趋向 于 0， 但 系数 永远 不 会 正 
好 等 于 0。 进一步 观察 图 像 ， 还 可 以 在 第 3 个 系数 那里 发 现 有 趣 之 处 ， 这 个 
系数 是 “平均 周 长 ”(mean perimeter) 。C=100 和 C=1 时， 这 个 系数 为 负 ， 而 
C=0.001 时 这 个 系数 为 正 ， 其 绝对 值 比 C=1 时 还 要 大 。 在 解释 这 样 的 模型 时 ， 
人 们 可 能 会 认为 ， 系 数 可 以 告诉 我 们 某 个 特征 与 哪个 类 别 有 关 。 例 如 ， 人 
们 可 能 会 认为 高 “纹理 错误 ”(texture error) 特征 与 “恶性 ”样本 有 关 。 但 
“平均 周 长 ” 系 数 的 正 负 号 发 生变 化 ， 说 明 较 大 的 “平均 周 长 ” 可 以 被 当 作 
“良性 ”的 指标 或 “恶性 ”的 指标 ， 有 具体 取决 于 我 们 考虑 的 是 哪个 模型 。 这 
也 说 明 ， 对 线性 模型 系数 的 解释 应 该 始终 持 保留 态度 。 


















































想 要 一 个 可 解释 性 更 强 的 模型 ， 使 用 LI1 正则 化 可 能 更 好 ， 因 为 它 约束 模型 只 使 用 少 











E。 下 面 是 使 用 LI 正则 化 的 系数 图 像 和 分 类 精度 (图 2-18) 。 
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2-18: 对 于 不 同 的 5 值 ，L1 惩罚 的 Logistic 回归 在 乳腺 癌 数 据 集 上 学 到 的 系数 





In[46] : 
for 


plt. 
.xticks(range(cancer.data.shape[1]), cancer.feature_names, rotation=90) 
plt. 
plt. 
plt. 
plt. 
plt. 


plt 


C, marker in zip([0.001, 1, 100], ['o', '^', 'v']): 
Lr_L1 = LogisticRegression(C=C, penalty="11").fit(X_train, y_train) 
print("Training accuracy of L1 Logreg with C={:.3f}: {:.2f}".format( 
C, lr_li.score(X_train, y_train))) 
print("Test acCuracy of L1 Logreg with C={:.3f}: {:.2f}".format( 
C, lr_li.score(X test, y_test))) 


plot(lr_li.coef_.T, marker, label="C={:.3f}".format(C)) 


hlines(0, 0, cancer.data.shape[1]) 
xlabel("Coefficient index") 
ylabel("Coefficient magnitude") 
ylim(-5, 5) 

Legend(Loc=3) 


Out[46] : 
Training accuracy of L1 Logreg with C=0.001: 0.91 
Test accuracy of L1 Logreg with C=0.001: 0.92 
Training accuracy of L1 Logreg with C=1.000: 0.96 
Test accuracy of L1 Logreg with C=1.000: 0.96 
Training accuracy of L1 Logreg with C=100.000: 0.99 
Test accuracy of L1 Logreg with C=100.000: 0.98 


如 你 所 见 ， 用 于 一 分 类 的 线性 模型 与 用 于 回归 的 线性 模型 有 许多 相似 之 处 。 与 用 于 回归 的 
线性 模型 一 样 ， 模型 的 主要 差别 在 于 penalty 参数 ， 这 个 参数 会 影响 正则 化 ， 也 会 影响 模 
型 是 使 用 所 有 可 用 特征 还 是 只 选择 特征 的 一 个 子 集 。 


6. 用 于 多 分 类 的 线性 模型 


许多 线性 分 类 模型 只 适用 于 二 分 类 问题 ， 不 能 轻易 推广 到 多 类 别 问题 (除了 Logistic 回 
分 类 算法 推广 到 多 分 类 算法 的 一 种 常见 方法 是 “一 对 其 余 ”(one-vs.- 


归 )。 将 二 


























法 。 在 “一 对 其 余 ” 方 法 中 ， 对 每 个 类 别 都 学 习 一 个 二 分 类 模型 ， 将 这 个 类 别 
他 类 别 尽 量 分 开 ， 这 样 就 生成 了 与 类 别 个 数 一 样 多 的 二 分 类 重型 ， 在 测试 点 上 


二 类 分 类 器 来 进行 预测 。 在 对 应 类 别 上 分 数 最 高 的 分 类 器 “胜出 ”， 将 这 个 类 别 标签 返回 


作为 预 讽 
每 个 类 另 








结果 。 
上 都 对 应 一 个 二 类 分 类 器 ， 这 样 每 个 类 别 也 都 有 一 个 系数 (w) 向 量 和 一 
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x x[O] + w[1] * x[1] 二 + wlp] * x[p] +b 








rest) 方 
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个 截 距 


ee 


多 分 类 Logistic 回归 背后 的 数学 与 “一 对 其 余 ” 方 法 稍 有 不 同 ， 但 它 也 是 对 每 个 类 别 都 有 


一 个 系数 向 量 和 一 个 截 距 ， 也 使 用 了 相同 的 预测 方法 。 


























我 们 将 “一 对 其 余 ” 方 法 应 用 在 一 个 简单 的 三 分 类 数据 集 上 。 我 们 用 到 了 一 个 二 维 数据 
集 ， 每 个 类 别 的 数据 都 是 从 一 个 高 斯 分 布 中 采样 得 出 的 〈 见 图 2-19) : 
In[47]: 
from sklearn.datasets import make_blobs 
X, y = make_blobs(random_state=42) 
监督 学 习 | 49 


mglearn.discrete_scatter(X[:, 0], X[:, 1], y) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 
plt.legend(["Class 0", "Class 1", "Class 2"]) 
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图 2-19: 包含 3 个 类 别 的 二 维 玩具 数据 集 


现在 ， 在 这 个 数据 集 上 训练 一 个 LinearSVC 分 类 器 : 


In[48] : 
linear_svm = LinearSVC() .fit(X，y) 
print("Coefficient shape: ", linear_svm.coef_.shape) 
print("Intercept shape: ", linear_svm.intercept_.shape) 


Out[48] : 
Coefficient shape: (3, 2) 
Intercept shape: (3,) 


我 们 看 到 ，coef_ 的 形状 是 (3，2)， 说 明 coef_ 每 行 包含 三 个 类 别 之 一 的 系数 向 量 ， 每 列 
包含 某 个 特征 〈 这 个 数据 集 有 2 个 特征 ) 对 应 的 系数 值 。 现 在 intercept_ 是 一 维 数组 ， 保 
存 每 个 类 别 的 截 距 。 


我 们 将 这 3 个 二 类 分 类 器 给 出 的 直线 可 视 化 (图 2-20) : 


In[49]: 
mglearn.discrete scatter(X[:, 0], Xx[:, 1], y) 
line = np.linspace(-15, 15) 
for coef, intercept, color in zip(linear_svm.coef_, linear_svm.intercept ， 
[bs Fg | 
plt.plot(line, -(line * coef[0] + intercept) / coef[1], c=color) 
plt.ylim(-10, 15) 























plt.xlim(-10, 8) 

plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 

plt.legend(['Class 0', 'Class 1', 'Class 2', 'Line class 0', 'Line class 1', 
'Line class 2'], loc=(1.01, 0.3)) 
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图 2-20: 三 个 “一 对 其 余 ” 分 类 器 学 到 的 决策 边界 


你 可 以 看 到 ， 训 练 集 中 所 有 属于 类 别 0 的 点 都 在 与 类 别 0 对 应 的 直线 上 方 ， 这 说 明 它 们 位 
于 这 个 二 类 分 类 器 属于 “类 别 0” 的 那 一 侧 。 属 于 类 别 0 的 点 位 于 与 类 别 2 对 应 的 直线 上 
方 ， 这 说 明 它 们 被 类 别 2 的 二 类 分 类 器 划 为 “其 余 ” 。 属 于 类 别 0 的 点 位 于 与 类 别 1 对 应 
的 直线 左 侧 ， 这 说 明 类 别 1 的 二 元 分 类 器 将 它们 划 为 “其 余 ”。 因 此 ， 这 一 区 域 的 所 有 点 
都 会 被 最 终 分 类 器 划 为 类 别 0 (类 别 0 的 分 类 器 的 分 类 置信 方程 的 结果 大 于 0， 其 他 两 个 
类 别 对 应 的 结果 都 小 于 0)。 


但 图 像 中 间 的 三 角形 区 域 属 于 哪 一 个 类 别 呢 ，3 个 二 类 分 类 器 都 将 这 一 区 域内 的 点 划 为 
“其 余 ”。 这 里 的 点 应 该 划 归 到 哪 一 个 类 别 呢 ? 答案 是 分 类 方程 结果 最 大 的 那个 类 别 ， 即 最 
接近 的 那 条 线 对 应 的 类 别 。 


下 面 的 例子 (图 2-21) 给 出 了 二 维 空间 中 所 有 区 域 的 预测 结果 : 


In[50] : 

mglearn.plots.plot 2d classification(linear_svm, X, fill=True, alpha=.7) 

mglearn.discrete_scatter(X[:, 0], XxX[:, 1], y) 

line = np.linspace(-15, 15) 

for coef, intercept, color in zip(linear_svm.coef_, linear_svm.intercept ， 

['b', 'r', 'g']): 

plt.plot(line, -(line * coef[0] + intercept) / coef[1], c=color) 

plt.legend(['Class 0', 'Class 1', 'Class 2', 'Line class 0', 'Line class 1', 
'Line class 2'], loc=(1.01, 0.3)) 

plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 
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图 2-21: 三 个 “一 对 其 余 ” 分 类 器 得 到 的 多 分 类 决策 边界 


7. 优点 、 缺 点 和 参数 

线性 模型 的 主要 参数 是 正则 化 参数 ， 在 回归 模型 中 叫 作 alpha， 在 LinearSVC 和 Logistic- 
Regression 中 叫 作 Cc。alpha 值 较 大 或 C 值 较 小 ， 说 明 模 型 比较 简单 。 特 别 是 对 于 回归 模型 
而 言 ， 调 节 这 些 参数 非常 重要 。 通 常 在 对 数 尺 度 上 对 5 和 alpha 进行 搜索 。 你 还 需要 确定 
的 是 用 Ll 正则 化 还 是 L2 正则 化 。 如 果 你 假定 只 有 几 个 特征 是 真正 重要 的 ， 那 么 你 应 该 用 
LI 正则 化 ， 否 则 应 默认 使 用 L2 正则 化 。 如 果 模 型 的 可 解释 性 很 重要 的 话 ， 使 用 Ll 也 会 
有 和 帮助。 由 于 Ll 只 用 到 几 个 特征 ， 所 以 更 容易 解释 哪些 特征 对 模型 是 重要 的 ， 以 及 这 些 
特征 的 作用 。 


线性 模型 的 训练 速度 非常 快 ， 预 测速 度 也 很 快 。 这 种 模型 可 以 推广 到 非常 大 的 数据 集 ， 对 
稀 玻 数据 也 很 有 效 。 如 果 你 的 数据 包含 数 十 万 甚至 上 百 万 个 样本 ， 你 可 能 需要 研究 如 何 使 
用 LogisticRegression 和 Ridge 模型 的 solver='sag' 选项 ， 在 处 理 大 型 数据 时 ， 这 一 选项 
比 默 认 值 要 更 快 。 其 他 选项 还 有 SGDCLassifier 类 和 SGDRegressor 类 ， 它 们 对 本 市 介绍 的 
线性 模型 实现 了 可 扩展 性 更 强 的 版 本 。 


线性 模型 的 另 一 个 优点 在 于 ， 利 用 我 们 之 间 见 过 的 用 于 回归 和 分 类 的 公式 ， 理 解 如 何 进 
行 预测 是 相对 比较 容易 的 。 不 幸 的 是 ， 往 往 并 不 完全 清楚 系数 为 什么 是 这 样 的 。 如 有 果 你 
的 数据 集中 包含 高 度 相关 的 特征 ， 这 一 问题 尤为 突出 。 在 这 种 情况 下 ， 可 能 很 难 对 系数 
做 出 解释 。 

如 果 特 征 数 量 大 于 样本 数量 ， 线 性 模型 的 表现 通常 都 很 好 。 它 也 常用 于 非常 大 的 数据 集 ， 
只 是 因为 训练 其 他 模型 并 不 可 行 。 但 在 更 低 维 的 空间 中 ， 其 他 模型 的 泛 化 性 能 可 能 更 好 。 
2.3.7 市 会 介绍 几 个 线性 模型 不 适用 的 例子 。 
































方法 链 

scikit-learn 中 所 有 模型 的 fit 方法 返回 的 都 是 self。 这 允许 你 像 下 面 这 样 编写 代码 
(我 们 在 本 章 已 经 用 过 很 多 次 了 ) : 
In[51] : 

# 用 一 行 代码 初始 化 模型 并 拟 合 

Logreg = LogisticRegression().fit(X_train, y_train) 
这 里 我 们 利用 fit 的 返回 值 ( 即 self) 将 训练 后 的 模型 赋值 给 变量 logreg。 这 种 方 
法 调用 的 拼接 ( 先 调 用 _init ， 然 后 调用 fit) 被 称 为 方法 链 (method chaining)。 
scikit-learn 中 方法 链 的 另 一 个 常见 用 法 是 在 一 行 代码 中 同时 fit 和 predict: 


In[52]: 

logreg = LogisticRegression() 

y_pred = logreg.fit(X_train, y_train).predict(X_test) 
最 后 ， 你 甚至 可 以 在 一 行 代码 中 完成 模型 初始 化 、 拟 合 和 预测 : 
In[53]: 


y_pred = LogisticRegression().fit(X_ train, y_train).predict(X_test) 
不 过 这 种 非常 简短 的 写法 并 不 完美 。 一 行 代码 中 发 生 了 很 多 事情 ， 可 能 会 使 代码 变 得 
难以 阅读 。 此 外 ， 拟 合 后 的 回归 模型 也 没有 保存 在 任何 变量 中 ， 所 以 我 们 既 不 能 查看 
它 也 不 能 用 它 来 预测 其 他 数据 。 








2.3.4 朴素 贝 叶 斯 分 类 器 


朴素 贝 叶 斯 分 类 需 是 与 上 一 节 介 绍 的 线性 模型 非常 相似 的 一 种 分 类 器 ， 但 它 的 训练 速度 往 
往 更 快 。 这 种 高 效率 所 付出 的 代价 是 ， 朴 素 贝 叶 斯 模型 的 泛 化 能 力 要 比 线性 分 类 器 〈 如 
LogisticRegression 和 LinearSVC) 稍 差 。 


朴素 贝 叶 斯 模型 如 此 高 效 的 原因 在 于 ， 它 通过 单独 查看 每 个 特征 来 学 习 参 数 ， 并 从 每 
个 特征 中 收集 简单 的 类 别 统 计数 据 。scikit-learn 中 实现 了 三 种 朴素 贝 叶 斯 分 类 器 : 
GaussianNB、BernoulliNB 和 MultinomialNB。GaussianNB 可 应 用 于 任意 连续 数据 ， 而 
BernoulliNB 假定 输入 数据 为 二 分 类 数据 ，MultinomialNB 假定 输入 数据 为 计数 数据 ( 即 每 
个 特征 代表 某 个 对 象 的 整数 计数 ， 比 如 一 个 单词 在 句子 里 出 现 的 次 数 )。BernouLLtNB 和 
MultinomialNB 主要 用 于 文本 数据 分 类 。 


BernoulliNB 分 类 器 计算 每 个 类 别 中 每 个 特征 不 为 0 的 元 素 个 数 。 用 一 个 例子 来 说 明 会 很 
容易 理解 : 


In[54]: 
X = np.array([[0, 1, 0, 1]， 
[1, 0, 1, 1], 
[0, 0, 0, 1], 
[1, 09, 1, 0]]) 
y = np.array([0, 1, 0, 1]) 


























这 里 我 们 有 4 个 数据 点 ， 每 个 点 有 4 个 二 分 类 特征 。 一 共有 两 个 类 别 : 0 和 1。 对 于 类 别 0 
(第 1、3 个 数据 点 ) ， 第 一 个 特征 有 2 个 为 零 、0 个 不 为 零 ， 第 二 个 特征 有 1 个 为 零 、1 个 
不 为 零 ， 以 此 类 推 。 然 后 对 类 别 1 中 的 数据 点 计算 相同 的 计数 。 计 算 每 个 类 别 中 的 非 零 元 
素 个 数 ， 大 体 上 看 起 来 像 这 样 : 


In[55] : 
counts = {} 
for label in np.unique(y): 
# 对 每 个 类 别 进行 遍历 
# 计算 ( 求 和 ) 每 个 特征 中 1 的 个 数 
counts[LabeL] = X[y == label].sum(axis=0) 
print("Feature counts:\n{}".format(counts)) 























Out[55]: 
Feature counts: 
{0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])} 


另外 两 种 朴素 贝 叶 斯 模型 (MuLtinomitaLNB 和 GaussianNB) 计算 的 统计 数据 类 型 略 有 不 同 。 
MultinomialNB 计算 每 个 类 别 中 每 个 特征 的 平均 值 ， 而 GaussianNB 会 保存 每 个 类 别 中 每 个 
特征 的 平均 值 和 标准 差 。 

要 想 做 出 预测 ， 需 要 将 数据 点 与 每 个 类 别 的 统计 数据 进行 比较 ， 并 将 最 匹配 的 类 别 作为 预 
测 结果 。 有 趣 的 是 ，MutLtinomiaLNB 和 BernouLLiNB 预测 公式 的 形式 都 与 线性 模型 完全 相同 
( 见 2.3.3 节 )。 不 幸 的 是 ， 朴 素 贝 叶 斯 模型 coef_ 的 含义 与 线性 模型 稍 有 不 同 ， 因 为 coef_ 
不 同 于 w。 


优点 、 缺 点 和 参数 

MultinomialNB 和 BernouLLiNB 都 只 有 一 个 参数 aLpha， 用 于 控制 模型 复杂 度 。aLpha 的 工作 
原理 是 ， 算 法 向 数据 中 添加 alpha 这 么 多 的 虚拟 数据 点 ， 这 些 点 对 所 有 特征 都 取 正 值 。 这 
可 以 将 统计 数据 “平滑 化 ”(smoothing)。alpha 越 大 ， 平 请 化 越 强 ， 模 型 复杂 度 就 越 低 。 
算法 性 能 对 aLpha 值 的 鲁 棒 性 相对 较 好 ， 也 就 是 说 ，alpha 值 对 模型 性 能 并 不 重要 。 但 调 
整 这 个 参数 通常 都 会 使 精度 略 有 提高 。 

GaussianNB 主要 用 于 高 维 数据 ， 而 另外 两 种 朴素 贝 叶 斯 模型 则 广泛 用 于 稀 玻 计数 数据 ， 比 
如 文本 。MultinomialNB 的 性 能 通常 要 优 于 BernouLLiNB ， 特 别 是 在 包含 很 多 非 零 特征 的 数 
据 集 〈 即 大 型 文档 ) 上 。 

朴素 贝 叶 斯 模型 的 许多 优点 和 缺点 都 与 线性 模型 相同 。 它 的 训练 和 预测 速度 都 很 快 ， 训 练 
过 程 也 很 容易 理解 。 该 模型 对 高 维 稀 玻 数据 的 效果 很 好 ， 对 参数 的 鲁 棒 性 也 相对 较 好 。 朴 
素 贝 叶 斯 模型 是 很 好 的 基准 模型 ， 和 常用 于 非常 大 的 数据 集 ， 在 这 些 数据 集 上 即使 训练 线性 
模型 可 能 也 要 花费 大 量 时 间 。 


2.3.5 决策 树 
决策 树 是 广泛 用 于 分 类 和 回归 任务 的 模型 。 本 质 上 ， 它 从 一 层 层 的 ielse 问题 中 进行 学 
习 ， 并 得 出 结论 。 
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这 些 问题 类 似 于 你 在 “20 Questions” 游 戏 " 中 可 能 会 问 的 问题 。 想 象 一 下 ， 你 想 要 区 分 下 
面 这 四 种 动物 :能 、 座 、 企 的 和 海豚 。 你 的 目标 是 通过 提出 尽 可 能 少 的 if/else 问题 来 得 到 
正确 答案 。 你 可 能 首先 会 问 : 这 种 动物 有 没有 羽毛 ， 这 个 问题 会 将 可 能 的 动物 减少 到 只 有 
两 种 。 如 果 答案 是 “有 ”， 你 可 以 问 下 一 个 问题 ， 帮 你 区 分 认 和 企 物 。 例 如 ， 你 可 以 问 这 
种 动物 会 不 会 飞 。 如 果 这 种 动物 没有 羽毛 ， 那 么 可 能 是 海豚 或 能 ， 所 以 你 需要 问 一 个 问题 
来 区 分 这 两 种 动物 一 一 比如 问 这 种 动物 有 没有 鳍 。 

这 一 系列 问题 可 以 表示 为 一 棵 决策 树 ， 如 图 2-22 所 示 。 


In[56]: 
mglearn.plots.plot_animal_tree() 

















有 没有 羽毛 ? 














图 2-22: 区 分 几 种 动物 的 决策 树 


在 这 张 图 中 ， 树 的 每 个 结 点 代表 一 个 问题 或 一 个 包含 答案 的 终结 点 〈 也 叫 叶 结 点 ) 。 树 的 
边 将 问题 的 答案 与 将 问 的 下 一 个 问题 连接 起 来 。 

用 机 器 学 习 的 语言 来 说 就 是 ， 为 了 区 分 四 类 动物 ( 座 、 企 的 、 海 豚 和 人 能)， 我 们 利用 三 个 
特征 (“有 没有 羽毛 “会 不 会 尺 ” 和 “有 没有 鳍 ") 来 构建 一 个 模型 。 我 们 可 以 利用 监督 
学 习 从 数据 中 学 习 模 型 ， 而 无 需 人 为 构建 模型 。 

1. 构造 决策 树 

我 们 在 图 2-23 所 示 的 二 维 分 类 数据 集 上 构造 决策 树 。 这 个 数据 集 由 2 个 半月 形 组 成 ， 每 个 
类 别 都 包含 50 个 数据 点 。 我 们 将 这 个 数据 集 称 为 two_moons。 

学 习 决 策 树 ， 就 是 学 习 一 系列 ifjelse 问题 ， 使 我 们 能 够 以 最 快 的 速度 得 到 正确 答案 。 在 机 器 
学 习 中 ， 这 些 问 题 叫 作 测试 〈 不 要 与 测试 集 弄 混 ， 测 试 集 是 用 来 测试 模型 泛 化 性 能 的 数据 ) 。 
数据 通常 并 不 是 像 动物 的 例子 那样 具有 二 元 特征 (是 / 否 ) 的 形式 ， 而 是 表示 为 连续 特征 ， 
比如 图 2-23 所 示 的 二 维 数据 集 。 用 于 连续 数据 的 测试 形式 是 :“ 特 征 i 的 值 是 否 大 于 a? ” 






























































注 9: 一 种 室内 游戏 ,其 中 一 人 想象 一 个 对 象 ， 其 他 人 轮流 通过 向 他 提问 来 猜测 这 个 对 象 , 他 只 能 回答 “是 ” 
或 “ 否 ”。 如 果 20 轮 癌 题 过 后 仍 没 人 猜 出 ， 则 这 个 人 获胜 。 译 者 注 



































图 2-23: 用 于 构造 决策 树 的 two_moons 数据 集 


为 了 构造 决策 树 ， 算 法 搜 壳 所 有 可 能 的 测试 ， 找 出 对 目标 变量 来 说 信息 量 最 大 的 那 一 个 。 
图 2-24 展示 了 选 出 的 第 一 个 测试 。 将 数据 集 在 x[1]=9.0596 处 垂直 划分 可 以 得 到 最 多 信 
息 ， 它 在 最 大 程度 上 将 类 别 0 中 的 点 与 类 别 1 中 的 点 进行 区 分 。 顶 结 点 (也 叫 根 结 点 ) 表 
示 整 个 数据 集 ， 包 含 属于 类 别 0 的 50 个 点 和 属于 类 别 1 的 50 个 点。 通过 测试 x[1] <= 
9.0596 的 真 假 来 对 数据 集 进行 划分 ， 在 图 中 表示 为 一 条 黑 线 。 如 果 测 试 结果 为 真 ， 那 么 将 
这 个 点 分 配给 左 结 点 ， 左 结 点 里 包含 属于 类 别 0 的 2 个 点 和 属于 类 别 1 的 32 个 点 。 否 则 
将 这 个 点 分 配给 右 结 点 ， 右 结 点 里 包含 属于 类 别 0 的 48 个 点 和 属于 类 别 工 的 18 个 点 。 这 
两 个 结 点 对 应 于 图 2-24 中 的 顶部 区 域 和 底部 区 域 。 尽 管 第 一 次 划分 已 经 对 两 个 类 别 做 了 很 
好 的 区 分 ， 但 底部 区 域 仍 包含 属于 类 别 0 的 点 ， 顶 部 区 域 也 仍 包含 属于 类 别 1 的 点 。 我 们 
可 以 在 两 个 区 域 中 重复 寻找 最 佳 测试 的 过 程 ， 从 而 构建 出 更 准确 的 模型 。 图 2-25 展示 了 信 
息 量 最 大 的 下 一 次 划分 ， 这 次 划分 是 基于 x[9] 做 出 的 ， 分 为 左右 两 个 区 域 。 












































depth = 1 


X[1] <= 0.0596 
counts = [50, 50] 


True False 


counts = [2, 32] 









counts = [48, 18] 














图 2-24: 深度 为 1 的 树 的 决策 边界 ( 左 ) 与 相应 的 树 ( 右 ) 











depth = 2 






XI1] <= 0.0596 
counts = [50, 50] 





True False 
XI0] <= -0.4177 XIO] <= 1.1957 
counts = [2, 32] | | counts = [48, 18] 





counts = [0. 32] counts = [47, 8] counts = [1, 10] 








图 2-25: 深度 为 2 的 树 的 决策 边界 ( 左 ) 与 相应 的 树 〈 右 ) 


这 一 递归 过 程 生成 一 棵 二 元 决策 树 ， 其 中 每 个 结 点 都 包含 一 个 测试 。 或 者 你 可 以 将 每 个 测 
试看 成 沿 着 一 条 轴 对 当前 数据 进行 划分 。 这 是 一 种 将 算法 看 作 分 层 划分 的 观点 。 由 于 每 个 
测试 仅 关注 一 个 特征 ， 所 以 划分 后 的 区 域 边界 始终 与 坐标 轴 平 行 。 

对 数据 反复 进行 递归 划分 ， 直 到 划分 后 的 每 个 区 域 (决策 树 的 每 个 叶 结 点 ) 只 包含 单一 目 
标 值 (单一 类 别 或 单一 回归 值 )。 如 果树 中 某 个 叶 结 点 所 包含 数据 点 的 目标 值 都 相同 ， 那 
么 这 个 叶 结 点 就 是 纯 的 (pure)。 这 个 数据 集 的 最 终 划 分 结果 见 图 2-26。 
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图 2-26: 深度 为 9 的 树 的 决策 边界 ( 左 ) 与 相应 的 树 的 一 部 分 ( 右 ) ; 完整 的 决策 树 非常 大 ， 很 难 可 视 化 


想 要 对 新 数据 点 进行 预测 ， 首 先 要 查看 这 个 点 位 于 特征 空间 划分 的 哪个 区 域 ， 然 后 将 该 
域 的 多 数目 标 值 (如果 是 纯 的 叶 结 点 ， 就 是 单一 目标 值 ) 作为 预测 结果 。 从 根 结 点 开始 对 
树 进行 亿 历 就 可 以 找到 这 一 区 域 ， 每 一 步 向 左 还 是 向 右 取 决 于 是 否 满 足 相 应 的 测试 。 

决策 树 也 可 以 用 于 回归 任务 ,使 用 的 方法 完全 相同 。 预 测 的 方法 是 ， 基 于 每 个 结 点 的 测试 


对 树 进行 人 遍历， 最 终 找 到 新 数据 点 所 属 的 叶 结 点 。 这 一 数据 点 的 输出 即 为 此 叶 结 点 中 所 有 
训练 点 的 平均 目标 值 。 
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2. 控制 决策 树 的 复杂 度 

通常 来 说 ， 构 造 决策 树 直 到 所 有 叶 结 点 都 是 纯 的 叶 结 点 ， 这 会 导致 模型 非常 复杂 ， 并 且 对 
训练 数据 高 度 过 拟 合 。 纯 叶 结 点 的 存在 说 明 这 棵 树 在 训练 集 上 的 精度 是 100%。 训 练 集中 
的 每 个 数据 点 都 位 于 分 类 正确 的 叶 结 点 中 。 在 图 2-26 的 左 图 中 可 以 看 出 过 拟 合 。 你 可 以 看 
到 ， 在 所 有 属于 类 别 0 的 点 中 间 有 一 块 属于 类 别 1 的 区 域 。 另 一 方面 ， 有 一 小 条 属于 类 别 
0 的 区 域 ， 包 围 着 最 右 侧 属于 类 别 0 的 那个 点 。 这 并 不 是 人 们 想象 中 决策 边界 的 样子 ， 这 
个 决策 边界 过 于 关注 远离 同类 别 其 他 点 的 单个 异常 点 。 

防止 过 拟 合 有 两 种 常见 的 策略 : 一 种 是 及 早 停止 树 的 生长 ， 也 叫 预 剪 枝 (pre-pruning) ; 
另 一 种 是 先 构造 树 ， 但 随后 删除 或 折 受 信息 量 很 少 的 结 点 ， 也 叫 后 剪 枝 〈post-pruning) 或 
剪 枝 (pruning)。 预 剪 枝 的 限制 条 件 可 能 包括 限制 树 的 最 大 次 度 、 限 制 叶 结 点 的 最 大 数目 ， 
或 者 规定 一 个 结 点 中 数据 点 的 最 小 数目 来 防止 继续 划分 。 

scikit-Learn 的 决策 树 在 DecisionTreeRegressor 类 和 DecisionTreeClassifier 类 中 实现 。 
scikit-learn 只 实现 了 预 剪 枝 ， 没 有 实现 后 剪 枝 。 

我 们 在 乳腺 癌 数 据 集 上 更 详细 地 看 一 下 预 剪 枝 的 效果 。 和 前 面 一 样 ， 我 们 导入 数据 集 并 将 
其 分 为 训练 集 和 测试 集 。 然 后 利用 默认 设置 来 构建 模型 ， 默认 将 树 完全 展开 ( 树 不 断 分 
支 ， 直 到 所 有 叶 结 点 都 是 纯 的 )。 我 们 固定 树 的 random_state， 用 于 在 内 部 解决 平局 问题 : 


In[58]: 
from sklearn.tree import DecisionTreeClassifier 






















































































cancer = load_breast_ cancer() 
X_train, X_test, y_train, y_test = train test_ split( 
cancer .data, cancer.target, stratify=cancer.target, random_state=42) 
tree = DecisionTreeClassifier(random state=0) 
tree.fit(X_train, y_train) 
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test))) 


Out[58]: 
Accuracy on training set: 1.000 
Accuracy on test set: 0.937 


不 出 所 料 ， 训 练 集 上 的 精度 是 100%， 这 是 因为 叶 结 点 都 是 纯 的 ， 树 的 这 度 很 大 ， 足 以 完 
美 地 记 住 训 练 数 据 的 所 有 标签 。 测 试 集 精 度 比 之 前 讲 过 的 线性 模型 略 低 ， 线 性 模型 的 精度 
约 为 95%。 


如 果 我 们 不 限制 决策 树 的 深度 ， 它 的 深度 和 复杂 度 都 可 以 变 得 特别 大 。 因 此 ， 未 剪 枝 的 树 
容易 过 拟 合 ， 对 新 数据 的 泛 化 性 能 不 佳 。 现 在 我 们 将 预 剪 枝 应 用 在 决策 树 上 ， 这 可 以 在 完 
美 拟 合 训练 数据 之 前 阻止 树 的 展开 。 一 种 选择 是 在 到 达 一 定 深度 后 停止 树 的 展开 。 这 里 我 
们 设置 nax_depth=4， 这 意味 着 只 可 以 连续 问 4 个 问题 (参见 图 2-24 和 图 2-26) 。 限 制 树 的 
深度 可 以 减少 过 拟 合 。 这 会 降低 训练 集 的 精度 ， 但 可 以 提高 测试 集 的 精度 : 

In[59] : 


tree = DecisionTreeClassifier(max_depth=4, random_state=0) 
tree.fit(X_train, y_train) 
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print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(tree.score(X_ test, y_test))) 


Out[59] : 
Accuracy on training set: 0.988 
Accuracy on test set: 0.951 


3. 分 析 决 策 树 
我 们 可 以 利用 tree 模块 的 export_graphviz 国 数 来 将 树 可 视 化 。 这 个 国 数 会 生成 一 
个 .dot 格式 的 文件 ， 这 是 一 种 用 于 保存 图 形 的 文本 文件 格式 。 我 们 设置 为 结 点 添加 颜色 
的 选项 ， 颜 色 表 示 每 个 结 点 中 的 多 数 类 别 ， 同 时 传人 类 别名 称 和 特征 名 称 ， 这 样 可 以 对 
树 正 确 标 记 : 
In[60] : 

from sklearn.tree import export_graphviz 


export_graphviz(tree, out file="tree.dot", class_names=["malignant","benign"], 
feature_names=cancer .feature_names, impurity=False, filled=True) 


我 们 可 以 利用 graphviz 模块 读 取 这 个 文件 并 将 其 可 视 化 (你 也 可 以 使 用 任何 能 够 读 取 .dot 
文件 的 程序 ) ， 见 图 2-27: 


In[61] : 
import graphviz 





with open("tree.dot") as f: 
dot_graph = f.read() 
graphviz.Source(dot_graph) 





Worsttexture <= 25.62 
samples =32 


value =[21,11] 
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图 2-27: 基于 乳腺 癌 数 据 集 构造 的 决策 树 的 可 视 化 














树 的 可 视 化 有 助 于 深入 理解 算法 是 如 何 进行 预测 的 ， 也 是 易于 向 非 专 家 解释 的 机 器 学 习 算 
法 的 优秀 示例 。 不 过 ， 即 使 这 里 树 的 深度 只 有 4 层 ， 也 有 点 太 大 了 。 深 度 更 大 的 树 (深度 
为 10 并 不 罕见 ) 更 加 难以 理解 。 一 种 观察 树 的 方法 可 能 有 用 ， 就 是 找 出 大 部 分 数据 的 实 
际 路 径 。 图 2-27 中 每 个 结 点 的 samples 给 出 了 该 结 点 中 的 样本 个 数 ，values 给 出 的 是 每 
个 类 别 的 样本 个 数 。 观 察 worst radius <= 16.795 分 支 右 侧 的 子 结 点 ， 我 们 发 现 它 只 包含 
8 个 良性 样本 ,但 有 134 个 恶性 样本 。 树 的 这 一 侧 的 其 余 分 支 只 是 利用 一 些 更 精细 的 区 别 
将 这 8 个 良性 样本 分 离 出 来 。 在 第 一 次 划分 右 侧 的 142 个 样本 中 ， 几 乎 所 有 样本 〈132 个 ) 
最 后 都 进入 最 右 侧 的 叶 结 点 中 。 
再 来 看 一 下 根 结 点 的 左 侧 子 结 点 ， 对 于 worst radius > 16.795， 我 们 得 到 25 个 恶性 样本 
和 259 个 恨 性 样本 。 几 乎 所 有 展 性 样本 最 终 都 进入 左 数 第 二 个 叶 结 点 中 ， 大 部 分 其 他 叶 结 
点 都 只 包含 很 少 的 样本 。 
4. 树 的 特征 重要 性 
查看 整个 树 可 能 非常 费劲 ， 除 此 之 外 ， 我 还 可 以 利用 一 些 有 用 的 属性 来 总 结 树 的 工作 原 
理 。 其 中 最 常用 的 是 特征 重要 性 (feature importance) ， 它 为 每 个 特征 对 树 的 决策 的 重要 性 
进行 排序 。 对 于 每 个 特征 来 说 ， 它 都 是 一 个 介 于 0 和 1 之 间 的 数字 ， 其 中 0 表示 “根本 没 
用 到 ”，1 表示 “完美 预测 目标 值 "。 特 征 重 要 性 的 求 和 始终 为 1: 
In[62]: 

print("Feature importances:\n{}".format(tree.feature_importances_ )) 











































































































Out[62] : 
Feature importances: 
[ 6. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.01 
0.048 0. 0. 0.002 0. 0. 0. 0. 0. 0.727 0.046 
0. 0. 0.014 0. 0.018 0.122 0.012 0. ] 
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我 们 可 以 将 特征 重要 性 可 视 化 ， 与 我 们 将 线性 模型 的 系数 可 视 化 的 方法 类 似 (图 2-28) : 
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2-28: 在 乳腺 癌 数 据 集 上 学 到 的 决策 树 的 特征 重要 性 
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In[63] : 
def plot feature importances_cancer(model): 
n_features = cancer.data.shape[1] 
plt.barh(range(n_features), model.feature_ importances_, align='center') 
plt.yticks(np.arange(n_features), cancer.feature names) 
plt.xlabel("Feature importance") 
plt.ylabel("Feature") 


plot_feature_importances_cancer(tree) 


这 里 我 们 看 到 ， 顶 部 划分 用 到 的 特征 (“worst radius”) 是 最 重要 的 特征 。 这 也 证 实 了 我 们 
在 分 析 树 时 的 观察 结论 ， 即 第 一 层 划 分 已 经 将 两 个 类 别 区 分 得 很 好 。 


但 是 ， 如 果 某 个 特征 的 feature_importance_ 很 小 ， 并 不 能 说 明 这 个 特征 没有 提供 任何 信 
息 。 这 只 能 说 明 该 特征 没有 被 树 选中 ， 可 能 是 因为 另 一 个 特征 也 包含 了 同样 的 信息 。 

与 线性 模型 的 系数 不 同 ， 特 征 重要 性 始终 为 正 数 ， 也 不 能 说 明 该 特征 对 应 哪个 类 别 。 特 征 
重要 性 告诉 我 们 “worst radius”( 最 大 半径 ) 特征 很 重要 ， 但 并 没有 告诉 我 们 半径 大 表示 
样本 是 良性 还 是 恶性 。 事 实 上 ， 在 特征 和 类 别 之 间 可 能 没有 这 样 简单 的 关系 ， 你 可 以 在 下 
面 的 例子 中 看 出 这 一 点 (图 2-29 和 图 2-30) : 


















































In[64]: 
tree = mglearn.plots.plot tree_not_monotone() 
display(tree) 

Out[64] : 


Feature importances: [ 0. 1.] 

















图 2-29: 一 个 二 维 数据 集 (y 轴 上 的 特征 与 类 别 标签 是 非 单调 的 关系 ) 与 决策 树 给 出 的 决策 边界 
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X[1] <= -5.8141 
Samples = 100 
value = [50,50] 






X[1] <= 5.3475 
samples=75 
value = [25,50] 









samples = 25 
value = [25,0] 











samples =25 
value = [25,0] 















2-30: 从 图 2-29 的 数据 中 学 到 的 决策 树 


该 图 显示 的 是 有 两 个 特征 和 两 个 类 别 的 数据 集 。 这 里 所 有 信息 都 包含 在 X[1] 中 ， 没 有 用 到 
Xx[9]。 但 x[1] 和 输出 类 别 之 间 并 不 是 单调 关系 ， 即 我 们 不 能 这 么 说 :“ 较 大 的 X[1] 对 应 类 
别 0， 较 小 的 x[1] 对 应 类 别 1”( 反 之 亦 然 ) 。 

虽然 我 们 主要 讨论 的 是 用 于 分 类 的 决策 树 ， 但 对 用 于 回归 的 决策 树 来 说 ， 所 有 内 容 都 是 
类 似 的， 在 DecisionTreeRegressor 中 实现 。 回 归 树 的 用 法 和 分 析 与 分 类 树 非 常 类 似 。 但 
在 将 基于 树 的 模型 用 于 回归 时 ， 我 们 想 要 指出 它 的 一 个 特殊 性 质 。DecisionTreeRegressor 
(以 及 其 他 所 有 基于 树 的 回归 模型 ) 不 能 外 推 (extrapolate)， 也 不 能 在 训练 数据 范围 之 外 
进行 预测 。 

我 们 利用 计算 机 内 存 (RAM) 历史 价格 的 数据 集 来 更 详细 地 研究 这 一 点 。 图 2-31 给 出 了 
这 个 数据 集 的 图 像 ，x 轴 为 日 期 , y 轴 为 那 一 年 1 兆 字 节 (MB) RAM 的 价格 : 
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2-31: 用 对 数 坐标 绘制 RAM 价格 的 历史 发 展 
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In[65] : 
import pandas as pd 
ram_prices = pd.read_csv("data/ram_price.csv") 


plt.semilogy(ram prices.date, ram prices.price) 
plt.xlabel("Year") 
plt.ylabel("Price in $/Mbyte") 


注意 y 轴 的 对 数 刻度 。 在 用 对 数 坐 标 绘图 时 ， 二 者 的 线性 关系 看 起 来 非常 好 ， 所 以 预测 应 
该 相对 比较 容易 ， 除 了 一 些 不 平滑 之 处 之 


我 们 将 利用 2000 年 前 的 历史 数据 来 预测 2000 年 后 的 价格 ， 只 用 日 期 作为 特征 。 我 们 将 
对 比 两 个 简单 的 模型 ，DecisionTreeRegressor 和 LinearRegression。 我 们 对 价格 取 对 数 ， 
使 得 二 者 关系 的 线性 相对 更 好 。 这 对 DecisionTreeRegressor 不 会 产生 什么 影响 ， 但 对 
LinearRegression 的 影响 却 很 大 (我 们 将 在 第 4 章 中 进一步 讨论 )。 训 练 模型 并 做 出 预测 之 
后 ， 我 们 应 用 指数 映射 来 做 对 数 变换 的 逆 运 算 。 为 了 便于 可 视 化 ,我们 这 里 对 整个 数据 集 
进行 预测 ， 但 如 果 是 为 了 定量 评估 ， 我 们 将 只 考虑 测试 数据 集 : 

In[66]: 


from sklearn.tree import DecisionTreeRegressor 


# 利用 历史 数据 预测 2096 年 后 的 价格 
data_train = ram_prices[ram_prices.date < 2000] 
data_test = ram prices[ram prices.date >= 2000] 


# 基于 日 期 来 预测 价格 
X_train = data_train.date[:, np.newaxis] 
# 我 们 利用 对 数 变换 得 到 数据 和 目标 之 间 更 简单 的 关系 


y_train = np.log(data_train.price) 
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tree = DecisionTreeRegressor().fit(X_train, y_train) 
linear_reg = LinearRegression().fit(X_train, y_train) 


# 对 所 有 数据 进行 预测 


X_all = ram prices.date[:, np.newaxis] 


pred_tree = tree.predict(X_all) 
pred_Lr = linear_reg.predict(X_all) 


# 对 数 变换 逆 运 算 
price tree = np.exp(pred_tree) 
price_lr = np.exp(pred_Lr) 


这 里 创建 的 图 2-32 将 决策 树 和 线性 回归 模型 的 预测 结果 与 真实 值 进行 对 比 : 


In[67]: 
plt.semilogy(data train.date, data_train.price, label="Training data") 
plt.semilogy(data test.date, data test.price, label="Test data") 
plt.semilogy(ram prices.date, price tree, label="Tree prediction") 
plt.semilogy(ram prices.date, price_ lr, label="Linear prediction") 
plt. legend() 
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2-32: 线性 模型 和 回归 树 对 RAM 价格 数据 的 预测 结果 对 比 


两 个 模型 之 间 的 差异 非常 明显 。 线 性 模型 用 一 条 直线 对 数据 做 近似 ， 这 是 我 们 所 知道 的 。 
这 条 线 对 测试 数据 (2000 年 后 的 价格 ) 给 出 了 相当 好 的 预测 ， 不 过 忽略 了 训练 数据 和 测试 
数据 中 一 些 更 细微 的 变化 。 与 之 相反 ， 树 模型 完美 预测 了 训练 数据 。 由 于 我 们 没有 限制 树 
的 复杂 度 ， 因 此 它 记 住 了 整个 数据 集 。 但 是 ， 一 旦 输入 超出 了 模型 训练 数据 的 范围 ， 模 型 
就 只 能 持续 预测 最 后 一 个 已 知 数据 点 。 树 不 能 在 训练 数据 的 范围 之 外 生成 “新 的 ”响应 。 
所 有 基于 树 的 模型 都 有 这 个 缺点 。” 


5. 优点 、 缺 点 和 参数 

如 前 所 述 ， 控 制 决策 树 模型 复杂 度 的 参数 是 预 剪 枝 参 数 ， 它 在 树 完全 展开 之 前 停止 树 的 构 
造 。 通 常 来 说 ， 选 择 一 种 预 剪 枝 策略 (设置 max_depth、max_leaf_nodes 或 min_samples_ 
leaf) 足以 防止 过 拟 合 。 

与 前 面 讨 论 过 的 许多 算法 相 比 ， 决 策 树 有 两 个 优点 : 一 是 得 到 的 模型 很 容易 可 视 化 ， 非 
专家 也 很 容易 理解 (至少 对 于 较 小 的 树 而 言 ) ， 二 是 算法 完全 不 受 数 据 缩 放 的 影响 。 由 于 
每 个 特征 被 单独 处 理 ， 而 且 数 据 的 划分 也 不 依赖 于 缩放 ， 因 此 决策 树 算法 不 需要 特征 预 处 
里 ， 比 如 归 一 化 或 标准 化 。 特 别 是 特征 的 尺度 完全 不 一 样 时 或 者 二 元 特征 和 连续 特征 同时 
存在 时 ， 决 策 树 的 效果 很 好 。 
决策 树 的 主要 缺点 在 于 ， 即 使 做 了 预 剪 枝 ， 它 也 经 常会 过 拟 合 ， 谤 化 性 能 很 差 。 因 此 ， 在 
大 多 数 应 用 中 ， 往 往 使 用 下 面 介绍 的 集成 方法 来 替代 单 棵 决策 树 。 


2.3.6 ”决策 树 集成 


集成 (ensemble) 是 合并 多 个 机 器 学 习 模 型 来 构建 更 强大 模型 的 方法 。 在 机 器 学 习 文 献 
中 有 许多 模型 都 属于 这 一 类 ， 但 已 证 明 有 两 种 集成 模型 对 大 量 分 类 和 回归 的 数据 集 都 是 
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注 10: 实际 上 ， 利 用 基于 树 的 模型 可 以 做 出 非常 好 的 预测 〈 比 如 试图 预测 价格 会 上 涨 还 是 下 跌 )。 这 个 例子 
的 目的 并 不 是 要 说 明 对 时 间 序 列 来 说 树 是 一 个 不 好 的 模型 ， 而 是 为 了 说 明 树 在 预测 方式 上 的 特殊 性 质 。 
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有 效 的 ， 二 者 都 以 决策 树 为 基础 ， 分 别 是 随机 森林 (random forest) 和 梯度 提升 决策 树 


( gradient boosted decision tree ) 。 


1. 随机 森林 
我 们 刚刚 说 过 ， 决 策 树 的 一 个 主要 缺点 在 于 经 常 对 训练 数据 过 拟 合 。 随 机 森林 是 解决 这 个 
问题 的 一 种 方法 。 随 机 森林 本 质 上 是 许多 决策 树 的 集合 ， 其 中 每 棵 树 都 和 其 他 树 略 有 不 
同 。 随 机 森林 背后 的 思想 是 ， 每 棵 树 的 预测 可 能 都 相对 较 好 ， 但 可 能 对 部 分 数据 过 拟 合 。 
如 果 构 造 很 多 树 ， 并 且 每 棵 树 的 预测 都 很 好 ， 但 都 以 不 同 的 方式 过 拟 合 ， 那 么 我 们 可 以 对 
这 些 树 的 结果 取 平 均值 来 降低 过 拟 合 。 既 能 减少 过 拟 合 又 能 保持 树 的 预测 能 力 ， 这 可 以 在 
数学 上 严格 证 明 。 

为 了 实现 这 一 策略 ， 我 们 需要 构造 许多 决策 树 。 每 棵 树 都 应 该 对 目标 值 做 出 可 以 接受 的 预 
测 ， 还 应 该 与 其 他 树 不 同 。 随 机 森林 的 名 字 来 自 于 将 随机 性 添加 到 树 的 构造 过 程 中 ， 以 确 
保 每 棵 树 都 各 不 相同 。 随 机 森林 中 树 的 随机 化 方法 有 两 种 : 一 种 是 通过 选择 用 于 构造 树 的 
数据 点 ， 另 一 种 是 通过 选择 每 次 划分 测试 的 特征 。 我 们 来 更 深入 地 研究 这 一 过 程 。 

构造 随机 森林 。 想 要 构造 一 个 随机 森林 模型 ,你 需要 确定 用 于 构造 的 树 的 个 数 
(RandomForestRegressor 或 RandomForestClassifier 的 n_estimators 参数 )。 比 如 我 们 想 
要 构造 10 棵 树 。 这 些 树 在 构造 时 彼此 完全 独立 ， 算 法 对 每 棵 树 进行 不 同 的 随机 选择 ， 以 
确保 树 和 树 之 间 是 有 区 别 的 。 想 要 构造 一 棵 树 ， 首 先 要 对 数据 进行 自助 采样 (bootstrap 
sample)。 也 就 是 说 ， 从 n_samples 个 数据 点 中 有 放 回 地 ( 即 同一 样本 可 以 被 多 次 抽取 ) 重 
复 随机 抽取 一 个 样本 ， 共 抽取 n_samples 次 。 这 样 会 创建 一 个 与 原 数 据 集 大 小 相同 的 数据 
集 ， 但 有 些 数据 点 会 缺失 (大约 三 分 之 一 )， 有 些 会 重复 。 


举例 说 明 ， 比 如 我 们 想 要 创建 列表 ['a' ，'b' ，'c'，'d'] 的 自助 采样 。 一 种 可 能 的 自主 采 
样 是 ['b'，'d'，'d'，'c']， 另 一 种 可 能 的 采样 为 ['d'，'a'，'d'，'a']。 

接 下 来 ， 基 于 这 个 新 创建 的 数据 集 来 构造 决策 树 。 但 是 ， 要 对 我 们 在 介绍 决策 树 时 描述 的 
算法 稍 作 修改 。 在 每 个 结 点 处 ， 算 法 随机 选择 特征 的 一 个 子 集 ， 并 对 其 中 一 个 特征 寻找 最 
佳 测 试 ， 而 不 是 对 每 个 结 点 都 寻找 最 佳 测试 。 选 择 的 特征 个 数 由 max_features 参数 来 控 
制 。 每 个 结 点 中 特征 子 集 的 选择 是 相互 独立 的 ， 这 样 树 的 每 个 结 点 可 以 使 用 特征 的 不 同 子 
集 来 做 出 决策 。 

由 于 使 用 了 自助 采样 ， 随 机 森林 中 构造 每 棵 决策 树 的 数据 集 都 是 略 有 不 同 的 。 由 于 每 个 结 
点 的 特征 选择 ， 每 棵 树 中 的 每 次 划分 都 是 基于 特征 的 不 同 子 集 。 这 两 种 方法 共同 保证 随机 
森林 中 所 有 树 都 不 相同 。 


在 这 个 过 程 中 的 一 个 关键 参数 是 max_features。 如 果 我 们 设置 max_features 等 于 
n_features， 那 么 每 次 划分 都 要 考虑 数据 集 的 所 有 特征 ， 在 特征 选择 的 过 程 中 没有 
添加 随机 性 (不 过 自助 采样 依然 存在 随机 性 ) 。 如 果 设 置 max_features 等 于 1， 那 
么 在 划分 时 将 无 法 选择 对 哪个 特征 进行 测试 ， 只 能 对 随机 选择 的 某 个 特征 搜索 不 同 
的 闪 值 。 因 此 ， 如 果 max_features 较 大 ， 那 么 随机 森林 中 的 树 将 会 十 分 相似 ， 利 
用 最 独特 的 特征 可 以 轻松 拟 合 数据 。 如 果 max_features 较 小 ， 那 么 随机 森林 中 的 
树 将 会 差异 很 大 ， 为 了 很 好 地 拟 合 数据 ， 每 棵 树 的 深度 都 要 很 大 。 








































































































想 要 利用 随机 森林 进行 预测 ， 算 法 首先 对 森林 中 的 每 棵 树 进行 预测 。 对 于 回归 问题 ， 我 们 
可 以 对 这 些 结果 取 平 均值 作为 最 终 预 测 。 对 于 分 类 问题 ， 则 用 到 了 “ 软 投票 ”(soft voting) 
策略 。 也 就 是 说 ， 每 个 算法 做 出 “ 软 ” 预 测 ， 给 出 每 个 可 能 的 输出 标签 的 概率 。 对 所 有 树 
的 预测 概率 取 平 均值 ， 然 后 将 概率 最 大 的 类 别 作为 预测 结果 。 


分 析 随 机 森林 。 下 面 将 由 5 棵 树 组 成 的 随机 森林 应 用 到 前 面 研究 过 的 two_moons 数据 集 上 : 


In[68] : 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.datasets import make_moons 


X, y = make_moons(n_samples=100, noise=0.25, random_state=3) 
X_train, X_test, y_train, y_test = train test split(X, y, stratify=y, 
random_state=42) 


forest = RandomForestClassifier(n estimators=5, random_state=2) 
forest.fit(X_train, y_train) 


作为 随机 森林 的 一 部 分 ， 树 被 保存 在 estimator_ 属性 中 。 我 们 将 每 棵 树 学 到 的 决策 边界 可 
视 化 ， 也 将 它们 的 总 预测 〈 即 整个 森林 做 出 的 预测 ) 可 视 化 (图 2-33) : 


In[69] : 
fig, axes = plt.subplots(2, 3, figsize=(20, 10)) 
for i, (ax, tree) in enumerate(zip(axes.ravel(), forest.estimators )): 
ax.set title("Tree {}".format(i)) 
mglearn.plots.plot_ tree partition(X_train, y_train, tree, ax=ax) 


mglearn.plots.plot 2d_separator(forest, X_train, fill=True, ax=axes[-1, -1], 
alpha=.4) 

axes[-1, -1].set title("Random Forest") 

mglearn.discrete scatter(X_ train[:, 0], Xx_train[:, 1], y_train) 
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图 2-33; 5 棵 随机 化 的 决策 树 找到 的 决策 边界 ， 以 及 将 它们 的 预测 概率 取 平均 后 得 到 的 决策 边界 
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你 可 以 清楚 地 看 到 ， 这 5 棵 树 学 到 的 决策 边界 大 不 相同 。 每 棵 树 都 犯 了 一 些 错误 ， 因 为 这 
里 画 出 的 一 些 训练 点 实际 上 并 没有 包含 在 这 些 树 的 训练 集中 ， 原 因 在 于 自助 采样 。 


随机 森林 比 单 独 每 一 棵 树 的 过 拟 合 都 要 小 ， 给 出 的 决策 边界 也 更 符合 直觉 。 在 任何 实际 应 
用 中 ， 我 们 会 用 到 更 多 棵 树 〈 通 常 是 几 百 或 上 千 ) ， 从 而 得 到 更 平滑 的 边界 。 


再 举 一 个 例子 ， 我 们 将 包含 100 棵 树 的 随机 森林 应 用 在 乳腺 癌 数 据 集 上 


In[70]: 
X_train, X_test, y_train, y_test = train test_split( 
cancer .data, cancer.target, random_state=0) 
forest = RandomForestClassifier(n_estimators=100, random_state=0) 
forest.fit(X_train, y_train) 
































print("Accuracy on training set: {:.3f}".format(forest.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(forest.score(X_test, y_test))) 


Out[70] : 
Accuracy on training set: 1.000 
Accuracy on test set: 0.972 


在 设 有 调节 任何 参数 的 情况 下 ， 随 机 森林 的 精度 为 97%， 比 线性 模型 或 单 棵 决策 树 都 要 
好 。 我 们 可 以 调节 max_features 参数 ， 或 者 像 单 棵 决策 树 那样 进行 预 剪 枝 。 但 是 ， 随 机 森 
林 的 默认 参数 通常 就 已 经 可 以 给 出 很 好 的 结果 。 
与 决策 树 类 似 ， 随 机 森林 也 可 以 给 出 特征 重要 性 ， 计 算 方 法 是 将 森林 中 所 有 树 的 特征 重要 
性 求 和 并 取 平 均 。 一 般 来 说 ， 随 机 森林 给 出 的 特征 重要 性 要 比 单 棵 树 给 出 的 更 为 可 靠 。 参 
见 图 2-34。 












































In[71]: 
plot_feature_importances_cancer(forest) 
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图 2-34: 拟 合 乳腺 癌 数 据 集 得 到 的 随机 森林 的 特征 重要 性 





如 你 所 见 ， 与 单 棵 树 相 比 ， 随 机 森林 中 有 更 多 特征 的 重要 性 不 为 零 。 与 单 棵 决策 树 类 似 ， 
随机 森林 也 给 了 “worst radius”( 最 大 半径 ) 特征 很 大 的 重要 性 ， 但 从 总 体 来 看 ， 它 实际 
上 却 选 择 “worst perimeter”( 最 大 周 长 ) 作为 信息 量 最 大 的 特征 。 由 于 构造 随机 森林 过 程 
中 的 随机 性 ， 算 法 需要 考虑 多 种 可 能 的 解释 ， 结 果 就 是 随机 森林 比 单 棵 树 更 能 从 总 体 把 握 
数据 的 特征 。 

优点 、 缺 点 和 参数 。 用 于 回归 和 分 类 的 随机 森林 是 目前 应 用 最 广泛 的 机 器 学 习 方 法 之 一 。 
这 种 方法 非常 强大 ， 通 常 不 需要 反复 调节 参数 就 可 以 给 出 很 好 的 结果 ， 也 不 需要 对 数据 进 
行 缩 放 。 

从 本 质 上 看 ， 随 机 森林 拥有 决策 树 的 所 有 优点 ， 同 时 弥补 了 决策 树 的 一 些 缺 陷 。 仍 然 使 
用 决策 树 的 一 个 原因 是 需要 决策 过 程 的 紧凑 表示 。 基 本 上 不 可 能 对 几 十 棵 甚至 上 百 棵 树 
做 出 详细 解释 ， 随 机 森林 中 树 的 深度 往往 比 决策 树 还 要 大 (因为 用 到 了 特征 子 集 )。 因 
此 ， 如 果 你 需要 以 可 视 化 的 方式 向 非 专 家 总 结 预测 过 程 ， 那 么 选择 单 棵 决策 树 可 能 更 好 。 
虽然 在 大 型 数据 集 上 构建 随机 森林 可 能 比较 费时 间 ， 但 在 一 台 计 算 机 的 多 个 CPU 内 核 上 
并 行 计算 也 很 容易 。 如 果 你 用 的 是 多 核 处 理 器 (几乎 所 有 的 现代 化 计算 机 都 是 ) ， 你 可 
以 用 n_jobs 参数 来 调节 使 用 的 内 核 个 数 。 使 用 更 多 的 CPU 内 核 ， 可 以 让 速度 线性 增加 
(使 用 2 个 内 核 ， 随 机 森林 的 训练 速度 会 加 倍 )， 但 设置 n_jobs 大 于 内 核 个 数 是 没有 用 
的 。 你 可 以 设置 n_jobs=-1 来 使 用 计算 机 的 所 有 内 核 。 


你 应 该 记 住 ， 随 机 森林 本 质 上 是 随机 的 ， 设 置 不 同 的 随机 状态 (或 者 不 设置 random_state 
参数 ) 可 以 彻底 改变 构建 的 模型 。 森 林 中 的 树 越 多 ， 它 对 随机 状态 选择 的 鲁 棒 性 就 越 好 。 
如 果 你 希望 结果 可 以 重 现 ， 固 定 random_state 是 很 重要 的 。 


对 于 维度 非常 高 的 稀 政 数 据 (比如 文本 数据 )， 随 机 森林 的 表现 往往 不 是 很 好 。 对 于 这 种 
数据 ， 使 用 线性 模型 可 能 更 合适 。 即 使 是 非常 大 的 数据 集 ， 随 机 森林 的 表现 通常 也 很 好 ， 
训练 过 程 很 容易 并 行 在 功能 强大 的 计算 机 的 多 个 CPU 内 核 上 。 不 过 ， 随 机 森林 需要 更 大 
的 内 存 ， 训 练 和 预测 的 速度 也 比 线性 模型 要 慢 。 对 一 个 应 用 来 说 ， 如 果 时 间 和 内 存 很 重要 
的 话 ， 那 么 换 用 线性 模型 可 能 更 为 明智 。 

需要 调节 的 重要 参数 有 n_estimators 和 max_features， 可 能 还 包括 预 剪 枝 选项 (如 max_ 
depth) 。n_estimators 总 是 越 大 越 好 。 对 更 多 的 树 取 平 均 可 以 降低 过 拟 合 ， 从 而 得 到 和 鲁 棒 
性 更 好 的 集成 。 不 过 收益 是 递减 的 ， 而 且 树 越 多 需要 的 内 存 也 越 多 ， 训 练 时 间 也 越 长 。 常 
用 的 经 验 法 则 就 是 “在 你 的 时 间 / 内 存 允 许 的 情况 下 尽量 多 ”。 

前 面 说 过 ，max_features 决定 每 棵 树 的 随机 性 大 小 ， 较 小 的 max_features 可 以 降低 过 拟 
合 。 一 般 来 说 ， 好 的 经 验 就 是 使 用 默认 值 : 对 于 分 类 ， 默 认 值 是 max_features=sqrt(n_ 
features); 对 于 回归 ， 默 认 值 是 max_features=n_features。 增 大 max_features 或 max_ 
leaf_nodes 有 时 也 可 以 提高 性 能 。 它 还 可 以 大 大 降低 用 于 训练 和 预测 的 时 间 和 空间 要 求 。 


2. 梯度 提升 回归 树 〈 梯 度 提升 机 ) 

梯度 提升 回归 树 是 另 一 种 集成 方法 ， 通 过 合并 多 个 决策 树 来 构建 一 个 更 为 强大 的 模型 。 虽 
然 名 字 中 含有 “回归 ”， 但 这 个 模型 既 可 以 用 于 回归 也 可 以 用 于 分 类 。 与 随机 森林 方法 不 
同 ， 梯 度 提升 采用 连续 的 方式 构造 树 ， 每 棵 树 都 试图 纠正 前 一 棵 树 的 错误 。 默 认 情 况 下 ， 
梯度 提升 回归 树 中 没有 随机 化 ， 而 是 用 到 了 强 预 剪 枝 。 梯 度 提 升 树 通 常 使 用 深度 很 小 (1 
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到 5 之 间 ) 的 树 ， 这 样 模型 占用 的 内 存 更 少 ， 预 测速 度 也 更 快 。 

梯度 提升 背后 的 主要 思想 是 合并 许多 简单 的 模型 在 这 个 语 境 中 叫 作 弱 学 习 器 )， 比 如 深 
度 较 小 的 树 。 每 棵 树 只 能 对 部 分 数据 做 出 好 的 预测 ， 因 此 ， 添 加 的 树 越 来 越 多 ， 可 以 不 断 
迭代 提高 性 能 。 

梯度 提升 树 经 常 是 机 器 学 习 竞 赛 的 优胜 者 ， 并 且 广泛 应 用 于 业界 。 与 随机 森林 相 比 ， 它 通 
常 对 参数 设置 更 为 敏感 ， 但 如 果 参 数 设置 正确 的 话 ， 模 型 精度 更 高 。 

除了 预 剪 枝 与 集成 中 树 的 数量 之 外 ， 梯 度 提升 的 另 一 个 重要 参数 是 learning_rate (学 习 
率 )， 用 于 控制 每 棵 树 纠 正 前 一 棵 树 的 错误 的 强度 。 较 高 的 学 习 率 意味 着 每 棵 树 都 可 以 做 
出 较 强 的 修正 ， 这 样 模型 更 为 复杂 。 通 过 增 大 n_estinators 来 向 集成 中 添加 更 多 树 ， 也 可 
以 增加 模型 复杂 度 ， 因 为 模型 有 更 多 机 会 纠正 训练 集 上 的 错误 。 


下 面 是 在 乳腺 癌 数 据 集 上 应 用 GradientBoostingcClassifier 的 示例 。 默 认 使 用 100 棵 树 ， 
最 大 深度 是 3， 学 习 率 为 0.1: 


In[72]: 
from sklearn.ensemble import GradientBoostingClassifier 
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Xx_train, X_test, y_train, y_test = train test_split( 
cancer .data, cancer.target, random_state=0) 


gbrt = GradientBoostingClassifier(random_state=0) 
gbrt.fit(X_train, y_train) 


print("Accuracy on training set: {:.3f}".format(gbrt.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(gbrt.score(X_test, y_test))) 


Out[72] : 
Accuracy on training set: 1.000 
Accuracy on test set: 0.958 


由 于 训练 集 精度 达到 100%， 所 以 很 可 能 存在 过 拟 合 。 为 了 降低 过 拟 合 ， 我 们 可 以 限制 最 
大 深度 来 加 强 预 剪 枝 ， 也 可 以 降低 学 习 率 ; 
In[73] : 


gbrt = GradientBoostingClassifier(random_state=0, max_depth=1) 
gbrt.fit(X_train, y_train) 








print("Accuracy on training set: {:.3f}".format(gbrt.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(gbrt.score(X_test, y_test))) 


Out[73] : 
Accuracy on training set: 0.991 
Accuracy on test set: 0.972 
In[74] : 


gbrt = GradientBoostingClassifier(random_state=0, learning_rate=0.01) 
gbrt.fit(X_train, y_train) 





print("Accuracy on training set: {:.3f}".format(gbrt.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(gbrt.score(X_test, y_test))) 


Out[74]: 
Accuracy on training set: 0.988 
Accuracy on test set: 0.965 


降低 模型 复杂 度 的 两 种 方法 都 降低 了 训练 集 精度 ， 这 和 预期 相同 。 在 这 个 例子 中 ， 减 小 树 
的 最 大 深度 显著 提升 了 模型 性 能 ， 而 降低 学 习 率 仅 稍稍 提高 了 泛 化 性 能 。 

对 于 其 他 基于 决策 树 的 模型 ， 我 们 也 可 以 将 特征 重要 性 可 视 化 ， 以 便 更 好 地 理解 模型 
(图 2-35) 。 由 于 我 们 用 到 了 100 棵 树 ， 所 以 即使 所 有 树 的 深度 都 是 1， 查 看 所 有 树 也 是 
不 现实 的 : 

In[75]: 


gbrt = GradientBoostingClassifier(random_state=0, max_depth=1) 
gbrt.fit(X_train, y_train) 














plot_feature_importances_cancer(gbrt) 
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图 2-35: 用 于 拟 合 乳腺 癌 数 据 集 的 梯度 提升 分 类 器 给 出 的 特征 重要 性 


可 以 看 到 ， 梯 度 提升 树 的 特征 重要 性 与 随机 森林 的 特征 重要 性 有 些 类 似 ， 不 过 梯度 提升 完 
全 忽略 了 某 些 特征 。 


由 于 梯度 提升 和 随机 森林 两 种 方法 在 类 似 的 数据 上 表现 得 都 很 好 ， 因 此 一 种 常用 的 方法 就 
是 先 尝试 随机 森林 ， 它 的 鲁 棒 性 很 好 。 如 果 随 机 森林 效果 很 好 ， 但 预测 时 间 太 长 ,或 者 机 
器 学 习 模 型 精度 小 数 点 后 第 二 位 的 提高 也 很 重要 ， 那 么 切换 成 梯度 提升 通常 会 有 用 。 

如 果 你 想 要 将 梯度 提升 应 用 在 大 规模 问题 上 ， 可 以 研究 一 下 xgboost 包 及 其 Python 接口 ， 
在 写作 本 书 时 ， 这 个 库 在 许多 数据 集 上 的 速度 都 比 scikit-tearn 对 梯度 提升 的 实现 要 快 
(有 时 调 参 也 更 简单 )。 
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优点 、 缺 点 和 人 参数。 梯度 提升 决策 树 是 监督 学 习 中 最 强大 也 最 常用 的 模型 之 一 。 其 主要 缺 
点 是 需要 仔细 调 参 ， 而 且 训练 时 间 可 能 会 比较 长 。 与 其 他 基于 树 的 模型 类 似 ， 这 一 算法 不 
需要 对 数据 进行 缩放 就 可 以 表现 得 很 好 ， 而 且 也 适用 于 二 元 特征 与 连续 特征 同时 存在 的 数 
据 集 。 与 其 他 基于 树 的 模型 相同 ， 它 也 通常 不 适用 于 高 维 稀 玻 数据 。 

梯度 提升 树 模 型 的 主要 参数 包括 树 的 数量 n_estimators 和 学 习 率 Learning_rate， 后 者 
用 于 控制 每 棵 树 对 前 一 棵 树 的 错误 的 纠正 强度 。 这 两 个 参数 高 度 相 关 ， 因 为 learning_ 
rate 越 低 ， 就 需要 更 多 的 树 来 构建 具有 相似 复杂 度 的 模型 。 随 机 森林 的 n_estimators 值 
总 是 越 大 越 好 ， 但 梯度 提升 不 同 ， 增 大 n_estimators 会 导致 模型 更 加 复杂 ， 进 而 可 能 
致 过 拟 合 。 通 常 的 做 法 是 根据 时 间 和 内 存 的 预算 选择 合适 的 n_estimators， 然 后 对 不 同 的 
Learning_rate 进行 遍历 。 


另 一 个 重要 参数 是 nax_depth (或 max_leaf_nodes)， 用 于 降低 每 棵 树 的 复杂 度 。 梯 度 提升 
模型 的 max_depth 通常 都 设置 得 很 小 ， 一 般 不 超过 5。 


2.3.7” 核 支持 向 量 机 


我 们 要 讨论 的 下 一 种 监督 学 习 模型 是 核 支持 向 量 机 (kernelized support vector machine)。 
在 2.3.3 节 中 ， 我 们 研究 了 将 线性 支持 向 量 机 用 于 分 类 任务 。 核 支持 向 量 机 (通常 简称 为 
SVM) 是 可 以 推广 到 更 复杂 模型 的 扩展 ， 这 些 模型 无 法 被 输入 空间 的 超 平面 定义 。 虽 然 支 
持 向 量 机 可 以 同时 用 于 分 类 和 回归 ， 但 我 们 只 会 介绍 用 于 分 类 的 情况 ， 它 在 SVC 中 实现 。 
类 似 的 概念 也 适用 于 支持 问 量 回归 ， 后 者 在 SVR 中 实现 。 

核 支 持 向 量 机 背后 的 数学 有 点 复杂 ， 已 经 超出 了 本 书 的 范围 。 你 可 以 陪读 Hastie、 
Tibshirani 和 Friedman 合 著 的 《统计 学 习 基 础 》 一 书 (http://statweb.stanford.edu/~tibs/Elem 
StatLearn/) 的 第 12 章 了 解 更 多 细节 。 不 过 ， 我 们 会 努力 向 读者 传达 这 一 方法 背后 的 理念 。 

1. 线性 模型 与 非 线性 特征 

如 图 2-15 所 示 ， 线 性 模型 在 低 维 空间 中 可 能 非常 受 限 ， 因 为 线 和 平面 的 灵活 性 有 限 。 有 一 
种 方法 可 以 让 线性 模型 更 加 灵活 ， 就 是 添加 更 多 的 特征 一 一 举 个 例子 ， 添 加 输入 特征 的 交 
互 项 或 多 项 式 。 


我 们 来 看 一 下 2.3.5 节 中 用 到 的 模拟 数据 集 ( 见 图 2-29) : 




































































In[76] : 
X, y = make_blobs(centers=4, random_state=8) 
y=y%2 


mglearn.discrete_ scatter(X[:, 0], X[:, 1], y) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 











Feature 1 


Feature 0 








图 2-36: 二 分 类 数据 集 ， 其 类 别 并 不 是 线性 可 分 的 


用 于 分 类 的 线性 模型 只 能 用 一 条 直线 来 划分 数据 点 ， 
( 见 








图 2-37) : 








In[77] : 


from sklearn.svm import LinearSVC 
linear_svm = LinearSVC() .fit(X，y) 


mglearn.plots.plot_2d_separator(linear_svm, X) 
mglearn.discrete scatter(X[:, 0], Xx[:, 1], y) 


plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 


对 这 个 数据 集 无 法 给 出 较 好 的 结果 








Feature 1 








Feature 0 








图 2-37: 线性 SVM 给 出 的 决策 边界 
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现在 我 们 对 输入 特征 进行 扩展 ， 比 如 说 添加 第 二 个 特征 的 平方 (featurel ** 2) 作为 一 个 











新 特征 。 现 在 我 们 将 每 个 数据 点 表示 为 三 维 点 (featureg，feature1，featurel ** 2)， 而 
不 是 二 维 点 (feature9，feature1) ”。 这 个 新 的 表示 可 以 画 成 图 2-38 中 的 三 维 散 点 图 : 
In[78]: 


# 添加 第 二 个 特征 的 平方 ， 作 为 一 个 新 特征 
X_new = np.hstack([X，X[:，1:] ** 2]) 























from mpl_toolkits.mplot3d import Axes3D, axes3d 

figure = plt.figure() 

# 3D 可 视 化 

ax = Axes3D(figure, elev=-152, azim=-26) 

# 首先 画 出 所 有 y == 0 的 点 ， 然 后 画 出 所 有 y == 1 的 点 

mask =y == 0 

ax.scatter(X_new[mask, 0], X_new[mask, 1], X_new[mask, 2], c='b', 


ax 


cmap=mglearn.cm2,s=60) 


.Scatter(X_new[~mask, 0], X_new[~mask, 1], X_new[~mask, 2], c='r', marker='^', 


cmap=mglearn.cm2, s=60) 


.set_xlabel("feature0") 
.set_ylabel("feature1") 
.Set_zlabel("featurel ** 2") 
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2-38: 对 图 2-37 中 的 数据 集 进行 扩展 ， 新 增 由 featurel 导出 的 的 第 三 个 特征 











在 数据 的 新 表示 中 ， 现 在 可 以 用 线性 模型 〈 三 维 空间 中 的 平面 ) 将 这 两 个 类 别 分 开 。 我 们 











可 以 用 线性 模型 拟 合 扩展 后 的 数据 来 验证 这 一 点 〈 见 图 2-39) : 











注 11: 我 们 选择 添加 这 个 特征 只 是 为 了 便于 说 明 。 这 个 特征 并 没有 特 另 

















| 的 重要 性 。 

















In[79] : 


linear_svm_3d = LinearSVC().fit(X_new, y) 
coef, intercept = linear_svm_3d.coef_.ravel(), linear_svm_ 3d.intercept_ 


# 显示 线性 决策 边界 

figure = plt.figure() 

ax = Axes3D(figure, elev=-152, azim=-26) 

xx = np.linspace(X_new[:, 0].min() - 2, X_new[:, 0].max() + 2, 50) 
yy = np.linspace(X new[:, 1].min() - 2, X_new[:, 1].max() + 2, 50) 


XX, YY = np.meshgrid(xx, yy) 

ZZ = (coef[0] * XX + coef[1] * YY + intercept) / -coef[2] 

ax.plot_surface(XX, YY, ZZ, rstride=8, cstride=8, alpha=0.3) 

ax.scatter(X_new[mask, 0], X_new[mask, 1], X_new[mask, 2], c='b', 
cmap=mglearn.cm2, s=60) 

ax.scatter(X_new[~mask, 0], X_new[~mask, 1], X_new[~mask, 2], c='r', marker='^', 
cmap=mglearn.cm2,s=60) 


ax.set xlabel("feature0") 
ax.set_ylabel("feature1") 
ax.set zlabel("featurel ** 2") 
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2-39: 线性 SVM 对 扩展 后 的 三 维 数据 集 给 出 的 决策 边界 




















如 果 将 线性 SVM 模型 看 作 原始 特征 的 函数 ， 那 么 它 实际 上 已 经 不 是 线性 的 了 。 它 不 是 一 
条 直线 ， 而 是 一 个 椭圆 ， 你 可 以 在 下 图 中 看 出 (图 2-40) : 


In[80]: 
ZZ EE YY YX 地 


dec = linear_svm_3d.decision_function(np.c_[XX.ravel(), YY.ravel(), ZZ.ravel()]) 

plt.contourf(XX, YY, dec.reshape(XX.shape), levels=[dec.min(), 0, dec.max()], 
cmap=mglearn.cm2, alpha=0.5) 

mglearn.discrete_ scatter(X[:, 0], Xx[:, 1], y) 

plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 
































Feature 1 
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Feature 0 
图 2-40: 将 图 2-39 给 出 的 决策 边界 作为 两 个 原始 特征 的 函数 


2. 核 技巧 

这 里 需要 记 住 的 是 ， 向 数据 表示 中 添加 非 线 性 特征 ， 可 以 让 线性 模型 变 得 更 强大 。 但 是 ， 
通常 来 说 我 们 并 不 知道 要 添加 哪些 特征 ， 而 且 添 加 许多 特征 (比如 100 维特 征 空 间 所 有 可 
能 的 交互 项 ) 的 计算 开销 可 能 会 很 大 。 幸 运 的 是 ， 有 一 种 巧妙 的 数学 技巧 ， 让 我 们 可 以 在 
更 高 维 空间 中 学 习 分 类 器 ， 而 不 用 实际 计算 可 能 非常 大 的 新 的 数据 表示 。 这 种 技巧 叫 作 核 
技巧 (kernel trick)， 它 的 原理 是 直接 计算 扩展 特征 表示 中 数据 点 之 间 的 距离 (更 准确 地 说 
是 内 积 )， 而 不 用 实际 对 扩展 进行 计算 。 


对 于 支持 向 量 机 ， 将 数据 映射 到 更 高 维 空间 中 有 两 种 常用 的 方法 : 一 种 是 多 项 式 核 ， 在 一 
定 阶 数 内 计算 原始 特征 所 有 可 能 的 多 项 式 (比如 featurel ** 2 * feature2 ** 5) ; 另 一 
种 是 径 向 基 范 数 (radial basis function，RBF) 核 ， 也 叫 高 斯 核 。 高 斯 核 有 点 难以 解释 ， 因 
为 它 对 应 无 限 维 的 特征 空间 。 一 种 对 高 斯 核 的 解释 是 它 考 虑 所 有 阶 数 的 所 有 可 能 的 多 项 
式 ， 但 阶 数 越 高 ， 特 征 的 重要 性 越 小 。” 

不 过 在 实践 中 ， 核 SVM 背后 的 数学 细节 并 不 是 很 重要 ， 可 以 简单 地 总 结 出 使 用 RBF 核 
SVM 进行 预测 的 方法 一 一 我 们 将 在 下 一 节 介 绍 这 方面 的 内 容 。 

3. 理解 SVM 

在 训练 过 程 中 ，SVM 学 习 每 个 训练 数据 点 对 于 表示 两 个 类 别 之 间 的 决策 边界 的 重要 性 。 通 
常 只 有 一 部 分 训练 数据 点 对 于 定义 决策 边界 来 说 很 重要 : 位 于 类 别 之 间 边 界 上 的 那些 点 。 
这 些 点 叫 作 支持 向 量 (support vector) ， 支 持 向 量 机 正 是 由 此 得 名 。 
想 要 对 新 样本 点 进行 预测 ， 需 要 测量 它 与 每 个 支持 向 量 之 间 的 距离 。 分 类 决策 是 基于 它 与 
支持 向 量 之 间 的 距离 以 及 在 训练 过 程 中 学 到 的 支持 向 量 重要 性 (保存 在 SVC 的 dual_coef_ 
属性 中 ) 来 做 出 的 。 






































注 12: 遵循 指数 映射 的 泰勒 展开 。 








数据 点 之 间 的 距离 由 高 斯 核 给 出 : 
kipr (Xi, Xa) = eXP (一 ) xox ”) 
这 里 x 入 是 数据 点 ，| x 一 x 表示 欧 氏 距离 ，y (gamma) 是 控制 高 斯 核 宽度 的 参数 。 


2-41 是 支持 向 量 机 对 一 个 二 维 二 分 类 数据 集 的 训练 结果 。 决 策 边界 用 黑色 表示 ， 支 持 向 
量 是 尺寸 较 大 的 点 。 下 列 代码 将 在 forge 数据 集 上 训练 SVM 并 创建 此 图 : 


In[81] : 
from sklearn.svm import SVC 
X, y = mglearn.tools.make_handcrafted_dataset() 
svm = SVC(kernel='rbf', C=10, gamma=0.1).fit(X, y) 
mglearn.plots.plot_2d_separator(svm, X, eps=.5) 
mglearn.discrete scatter(X[:, 0], Xx[:, 1], y) 
# 画 出 支持 向 量 
sv = svm.support_vectors_ 
# 支持 向 量 的 类 别 标签 由 duaL_coef 的 正 负 号 给 出 
sv_labels = svm.duaL_coef_ .ravel() > 0 
mglearn.discrete_scatter(sv[:, 0], sv[:, 1], sv_labels, s=15, markeredgewidth=3) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 
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2-41: RBF 核 SVM 给 出 的 决策 边界 和 支持 向 量 


在 这 个 例子 中 ，SVM 给 出 了 非常 平滑 且 非 线性 (不 是 直线 ) 的 边界 。 这 里 我 们 调节 了 两 
个 参数 : 5 参数 和 gamma 参数 ， 下 面 我 们 将 详细 讨论 。 

4. SVM 调 参 

gamma 参数 是 上 一 节 给 出 的 公式 中 的 参数 ， 用 于 控制 高 斯 核 的 宽度 。 它 决定 了 点 与 点 之 间 
“靠近 ”是 指 多 大 的 距离 。5 参数 是 正则 化 参数 ， 与 线性 模型 中 用 到 的 类 似 。 它 限制 每 个 点 
的 重要 性 (或 者 更 确切 地 说 ， 每 个 点 的 dual_coef_)。 
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我 们 来 看 一 下 ， 改 变 这 些 参 
In[82]: 


fig, axes = plt.subplots(3, 


for ax, C in zip(axes, [-1, 
for a, gamma in zip(ax, 


数 时 会 发 生 什么 (图 


图 2-42) : 


3, figsize=(15, 10)) 


0, 3]): 
range(-1, 2)): 


mglearn.plots.plot_svm(log_C=C, log_gamma=gamma, axX=a) 


axes[0, 0].legend(["class 0", 


"class 1"， 


ncol=4, loc=(.9, 1.2)) 


"sv class 0 " ， 


"sv class 1"], 
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2-42: 


许多 点 都 被 看 作 比 较 靠近 。 这 一 
的 图 决策 边界 更 关注 单个 点 。 
的 模型 ， 














设置 不 同 的 C 和 gamma 参数 对 应 的 决策 边界 和 支持 向 量 


从 左 到 右 ， 我 们 将 参数 gamma 的 值 从 0.1 增加 到 10。gamma 较 小 ， 
点 可 以 在 图 中 看 出 : 














非常 受 限 ， 每 个 数据 点 的 
几乎 是 线性 的 ，i 
点 对 模型 所 


彤 响 范 








围 都 有 限 。 





吴 分 类 的 点 对 边界 几乎 没有 任何 影响 。 再 看 左下 角 的 
影响 变 大 ， 使 得 决策 边界 发 生 弯 




















与 线性 模型 相同 ,Cc 值 很 小 ， 
尔 可 以 看 到 ， 左 上 角 的 图 中 ， 决 策 边界 看 起 来 


说 明 高 斯 核 的 半 和 径 较 大 ， 

















曲 来 将 这 些 点 正确 分 类 。 


我 们 将 RBF 核 SVM 应 用 到 乳腺 癌 数 据 集 上 。 默 认 情 况 下 ，C=1，gamma=1/n_features: 


左 侧 的 图 决策 边界 非常 平滑 ， 越 向 右 
小 的 gamma 值 表示 决策 边界 变化 很 慢 ， 生 成 的 是 复杂 度 较 低 
而 大 的 gamma 值 则 会 生成 更 为 复杂 的 模型 。 


从 上 到 下 ， 我 们 将 参数 5 的 值 从 6.1 增加 到 1666。 说 明 模 型 


图 ， 增 大 5 之 后 这 些 
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In[83] 


X_train, X_test, y_train, y_test = train_test_spLit( 


cancer .data, cancer.target, random_state=0) 


svc = SVC() 
svc.fit(X_train, y_train) 


print("Accuracy on training set: {:.2f}".format(svc.score(X_train, y_train))) 
print("Accuracy on test set: {:.2f}".format(svc.score(X_test, y_test))) 


Out[83]: 
Accuracy on training set: 1.00 
Accuracy on test set: 0.63 


这 个 模型 在 训练 集 上 的 分 数 十 分 完美 ， 但 在 测试 集 上 的 精度 只 有 63% ， 存 在 相当 严重 的 过 
拟 合 。 虽 然 SVM 的 表现 通常 都 很 好 ， 但 它 对 参数 的 设 定 和 数据 的 缩放 非常 敏感 。 特 别 地 ， 
它 要 求 所 有 特征 有 相似 的 变化 范围 。 我 们 来 看 一 下 每 个 特征 的 最 小 值 和 最 大 值 ， 
在 对 数 坐 标 上 (图 2-43) : 


In[84] 




















plt.plot(X_train.min(axis=0), 'o', label="min") 
plt.plot(X_train.max(axis=0), '^', label="max") 
plt. legend(loc=4) 

plt.xlabel("Feature index") 

plt.ylabel("Feature magnitude") 
plt.yscale("log") 


它们 绘制 








Feature magnitude 





Feature index 








2-43 


: 乳腺 癌 数 据 集 的 特征 范围 (注意 y 轴 的 对 数 坐标 ) 











从 这 张 图 中 ， 我 们 可 以 确定 乳腺 癌 数 据 集 的 特征 具有 完全 不 同 的 数量 级 。 这 对 其 他 模型 来 
说 (比如 线性 模型 ) 可 能 是 小 问题 ， 但 对 核 SVM 却 有 极 大 影响 。 我 们 来 研究 处 理 这 个 问 
题 的 几 种 方法 。 
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5. 为 SVM 预 处 理 数据 

解决 这 个 问题 的 一 种 方法 就 是 对 每 个 特征 进行 缩放 ， 使 其 大 致 都 位 于 同一 范围 。 核 SVM 
常用 的 缩放 方法 就 是 将 所 有 特征 缩放 到 0 和 1 之 间 。 我 们 将 在 第 3 章 学 习 如 何 使 用 
MinMaxSscaler 预 处 理 方法 来 做 到 这 一 点 ， 到 时 会 给 出 更 多 细节 。 现 在 我 们 来 “人 工 ” 做 到 


这 一 点 : 
































In[85]: 
# 计算 训练 集中 每 个 特征 的 最 小 值 
min_on_training = X_train.min(axis=0) 
# 计算 训练 集中 每 个 特征 的 范围 (最 大 值 - 最 小 值 ) 


range_on_training = (X_train - min_on_training).max(axis=0) 























# 减 去 最 小 值 ， 然 后 除 以 范围 
# 这 样 每 个 特征 都 是 min=0 和 max=1 

X_train_scaled = (X_train - min_on training) / range_on_training 
print("Minimum for each feature\n{}".format(X_train_scaled.min(axis=0))) 
print("Maximum for each feature\n {}".format(X_train_scaled.max(axis=0))) 





Out[85]: 
Minimum for each feature 
[ 90. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 
Maximum for each feature 
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In[86]: 
# 利用 训练 集 的 最 小 值 和 范围 对 测试 集 做 相同 的 变换 〈 详 见 第 3 章 ) 


X_test_scaled = (X_test - min_on training) / range_on_training 








In[87]: 
svc = SVC() 
svc.fit(X_train_scaled, y_train) 


print("Accuracy on training set: {:.3f}".format( 
svc.score(X_train_ scaled, y_train))) 
print("Accuracy on test set: {:.3f}".format(svc.score(X_ test_scaled, y_test))) 


Out[87] : 
Accuracy on training set: 0.948 
Accuracy on test set: 0.951 


数据 缩放 的 作用 很 大 ! 实际 上 模型 现在 处 于 欠 拟 合 的 状态 ， 因 为 训练 集 和 测试 集 的 性 能 非 
常 接 近 ， 但 还 没有 接近 100% 的 精度 。 从 这 里 开始 ， 我 们 可 以 尝试 增 大 5 或 gamma 来 拟 合 
更 为 复杂 的 模型 。 例 如 : 

In[88]: 


svc = SVC(C=1000) 
svc.fit(X_train_scaled, y_train) 





print("Accuracy on training set: {:.3f}".format( 
svc.score(X_train_scaled, y_train))) 
print("Accuracy on test set: {:.3f}".format(svc.score(X_test_scaled, y_test))) 





监督 学 习 | 79 


Ml 


Out[88]: 
Accuracy on training set: 0.988 
Accuracy on test set: 0.972 


在 这 个 例子 中 ， 增 大 Cc 可 以 显著 改进 模型 ， 得 到 97.2% 的 精度 。 


6. 优点 、 缺 点 和 参数 

核 支 持 向 量 机 是 非常 强大 的 模型 ， 在 各 种 数据 集 上 的 表现 都 很 好 。SVM 允许 决策 边界 很 
复杂 ， 即 使 数据 只 有 几 个 特征 。 它 在 低 维 数据 和 高 维 数据 〈 即 很 少 特征 和 很 多 特征 ) 上 的 
表现 都 很 好 ， 但 对 样本 个 数 的 缩放 表现 不 好 。 在 有 多 达 10 000 个 样本 的 数据 上 运行 SVM 
可 能 表现 良好 ， 但 如 果 数 据 量 达到 100 000 甚至 更 大 ， 在 运行 时 间 和 内 存 使 用 方面 可 能 会 
下 临 挑战 。 
SVM 的 另 一 个 缺点 是 ， 预 处 理 数 据 和 调 参 都 需要 非常 小 心 。 这 也 是 为 什么 如 今 很 多 应 用 
中 用 的 都 是 基于 树 的 模型 ， 比 如 随机 森林 或 梯度 提升 (需要 很 少 的 预 处 理 ， 其 至 不 需要 预 
处 理 )。 此 外 ，SVM 模型 很 难 检查 ， 可 能 很 难 理解 为 什么 会 这 么 预测 ， 而 且 也 难以 将 模型 
向 非 专 家 进行 解释 。 
不 过 SVM 仍然 是 值得 尝试 的 ， 特 别 是 所 有 特征 的 测量 单位 相似 (比如 都 是 像素 密度 ) 而 
且 范 围 也 差不多 时 。 

核 SVM 的 重要 参数 是 正则 化 参数 5、 核 的 选择 以 及 与 核 相 关 的 参数 。 虽 然 我 们 主要 讲 的 是 
RBF 核 ， 但 scikit-learn 中 还 有 其 他 选择 。RBF 核 只 有 一 个 参数 gamma， 它 是 高 斯 核 宽度 
的 倒数 。gamma 和 5 控制 的 都 是 模型 复杂 度 ， 较 大 的 值 都 对 应 更 为 复杂 的 模型 。 因 此 ， 这 
两 个 参数 的 设 定 通常 是 强烈 相关 的 ， 应 该 同时 调 市 。 


2.3.8 神经 网 络 〈 深 度 学 习 ) 
一 类 被 称 为 神经 网 络 的 算法 最 近 以 “深度 学 习 ” 的 名 字 再 度 流行 。 虽 然 深 度 学 习 在 许多 机 
器 学 习 应 用 中 都 有 巨大 的 潜力 ， 但 深度 学 习 算 法 往往 经 过 精确 调整 ， 只 适用 于 特定 的 使 
用 场景 。 这 里 只 讨论 一 些 相对 简单 的 方法 ， 即 用 于 分 类 和 回归 的 多 层 感知 机 (multilayer 
perceptron，MLP)， 它 可 以 作为 研究 更 复杂 的 深度 学 习 方 法 的 起 点 。MLP 也 被 称 为 〈 普 
通 ) 前 馈 神 经 网 络 ， 有 了 时 也 简称 为 神经 网 络 。 
1. 神经 网 络 模 型 
MLP 可 以 被 视 为 广义 的 线性 模型 ， 执 行 多 层 处 理 后 得 到 结论 。 
还 记得 线性 回归 的 预测 公式 为 : 

B=w[O] * x[O] + wll] * x[l] + +wlp] * xlp] +b 
简单 来 说 , 了 是 输入 特征 x[0] 到 x[p] 的 加 权 求 和 ， 权 重 为 学 到 的 系数 w[0] 到 w[p]。 我 们 可 
以 将 这 个 公式 可 视 化 ， 如 图 2-44 所 示 。 


In[89]: 
display(mglearn.plots.plot_ logistic regression graph()) 






















































































































































































图 2-44: Logistic 回归 的 可 视 化 ， 其 中 输入 特征 和 预测 结果 显示 为 结 点 ， 系 数 是 结 点 之 间 的 连 线 








图 中 ， 左 边 的 每 个 结 点 代表 一 个 输入 特征 ， 连 线 代 表 学 到 的 系数 ， 右 边 的 结 点 代表 输出 ， 
是 输入 的 加 权 求 和 。 

在 MLP 中 ， 多 次 重复 这 个 计算 加 权 求 和 的 过 程 ， 首 先 计算 代表 中 间 过 程 的 隐 单 元 (hidden 
unit) ， 然 后 再 计算 这 些 隐 单 元 的 加 权 求 和 并 得 到 最 终结 果 (如 图 2-45 所 示 ) : 


In[90] : 
dispLay(mgLearn.pLots.pLot_singLe_hidden_Layer_graph()) 






























































2-45: 单 隐 层 的 多 层 感知 机 图 示 


这 个 模型 需要 学 习 更 多 的 系数 (也 叫 作 权重 ) : 在 每 个 输入 与 每 个 隐 单 元 〈 隐 单元 组 成 了 
隐 层 ) 之 间 有 一 个 系数 ， 在 每 个 隐 单 元 与 输出 之 间 也 有 一 个 系数 。 


从 数学 的 角度 看 ， 计 算 一 系列 加 权 求 和 与 只 计算 一 个 加 权 求 和 是 完全 相同 的 ， 因 此 ， 为 了 
让 这 个 模型 真正 比 线性 模型 更 为 强大 ， 我 们 还 需要 一 个 技巧 。 在 计算 完 每 个 隐 单 元 的 加 权 
求 和 之 后 ， 对 结果 再 应 用 一 个 非 线 性 函数 一 一 通常 是 校正 非 线 性 (rectifying nonlinearity， 
也 叫 校正 线性 单元 或 relu) 或 正切 双 曲 线 (tangens hyperbolicus，tanh)。 然 后 将 这 个 函数 
的 结果 用 于 加 权 求 和 , 计算 得 到 输出 了 。 这 两 个 函数 的 可 视 化 效果 见 图 2-46。relu 截断 小 于 
























































0 的 值 ， 而 tanh 在 输入 值 较 小 时 接近 -1， 在 输入 值 较 大 时 接近 +1。 有 了 这 两 种 非 线性 函 
数 ， 神 经 网 络 可 以 学 习 比 线性 模型 复杂 得 多 的 函数 。 


In[91] : 
Line = np.linspace(-3, 3, 100) 
plt.plot(line, np.tanh(line), label="tanh") 
plt.plot(line, np.maximum(line, 0), label="relu") 
plt. legend(loc="best") 
plt.xlabel("x") 
plt.ylabel("relu(x), tanh(x)") 

















relu(x), tanh(x) 














图 2-46: 汉 曲 正切 激活 函数 与 校正 线性 激活 函数 





对 于 图 2-45 所 示 的 小 型 神经 网 络 ， 计 算 回 归 问 题 的 了 3 的 完整 公式 如 下 (使 用 tanh 非 线 
性 ) : 
[0] = tanh(w[O, 0] * x[O] + w[1, 0] * x[1] + w[2, 0] * x[2] + w[3, 0] * x[3] + b[O]) 
h[1] = tanh(w[O, 0] * x[O] + w[1, 0] * x[1] + w[2, 0] * x[2] + w[3, 0] * x[3] + b[1]) 
h[2] = tanh(w[O, 0] * x[O] + w[1, 0] * x[1] + w[2, 0] * x[2] + w[3, 0] * x[3] + b[2]) 
P=v[O] * AO] + v[I1] * [1] + v[2] * h[2] + 5 


其 中 ,w 是 输入 x 与 隐 层 之 间 的 权重 , v 是 隐 层 有 与 输出 了 之 间 的 权重 。 权 重 w 和 v 要 
从 数据 中 学 习 得 到 ，x 是 输入 特征 , 了 是 计算 得 到 的 输出 ，h 是 计算 的 中 间 结 果 。 需 要 用 户 
设置 的 一 个 重要 参数 是 隐 层 中 的 结 点 个 数 。 对 于 非常 小 或 非常 简单 的 数据 集 ， 这 个 值 可 以 
小 到 10; 对 于 非常 复杂 的 数据 ， 这 个 值 可 以 大 到 10 000。 也 可 以 添加 多 个 隐 层 ， 如 图 2-47 
所 示 。 


In[92]: 
mglearn.plots.plot_two_hidden_layer_graph() 
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图 2-47: 有 两 个 隐 层 的 多 层 感 知 机 


这 些 由 许多 计算 层 组 成 的 大 型 神经 网 络 ， 正 是 术语 “深度 学 习 ” 的 灵感 来 源 。 
2. 神经 网 络 调 参 
我 们 将 MLPCLassifier 应 用 到 本 章 前 面 用 过 的 two_moons 数据 集 上 ， 以 此 研究 MLP 的 工作 
原理 。 结 果 如 图 2-48 所 示 。 
In[93]: 
from sklearn.neural_network import MLPCLassifier 
from sklearn.datasets import make_moons 


X, y = make_moons(n_samples=100, noise=0.25, random_state=3) 


X_train, X_test, y_train, y_test = train test split(X, y, stratify=y, 
random_state=42) 


mlp = MLPCLassifier(solver='lbfgs', random state=0).fit(X_train, y_train) 
mglearn.plots.plot 2d_separator(mlp, X_train, fill=True, alpha=.3) 
mglearn.discrete scatter(X_ train[:, 0], Xx_train[:, 1], y_train) 
plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 





Feature 1 





Feature 0 











图 2-48: 包含 100 个 隐 单 元 的 神经 网 络 在 two_moons 数据 集 上 学 到 的 决策 边界 








如 你 所 见 ， 神 经 网 络 学 到 的 决策 边界 完全 是 非 线 性 的 ， 但 相对 平滑 。 我 们 用 到 了 
solver='lbfgs' ， 这 一 点 稍 后 会 讲 到 。 


默认 情况 下 ，MLP 使 用 100 个 隐 结 点 ， 这 对 于 这 个 小 型 数据 集 来 说 已 经 相当 多 了 。 我 们 可 
以 减少 其 数量 (从 而 降低 了 模型 复杂 度 )， 但 仍然 得 到 很 好 的 结果 (图 2-49) : 


In[94]: 
mLp = MLPCLassifier(solver='lbfgs', random state=0, hidden layer_sizes=[10]) 
mlp.fit(X_train, y_train) 
mglearn.plots.plot 2d_separator(mlp, X_train, fill=True, alpha=.3) 
mglearn.discrete scatter(X_train[:, 0], Xx_train[:, 1], y_train) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 





Feature 1 





Feature 0 











图 2-49: 包含 10 个 隐 单 元 的 神经 网 络 在 two_moons 数据 集 上 学 到 的 决策 边界 


只 有 10 个 隐 单 元 时 ， 决 策 边 界 看 起 来 更 加 参差 不 齐 。 默 认 的 非 线性 是 relu， 如 图 2-46 所 
示 。 如 果 使 用 单 隐 层 ， 那 么 决策 函数 将 由 10 个 直线 段 组 成 。 如 果 想 得 到 更 加 平滑 的 决策 
边界 ， 可 以 添加 更 多 的 隐 单 元 ( 见 图 2-48)、 添 加 第 二 个 隐 层 ( 见 图 2-50) 或 者 使 用 tanh 
非 线 性 ( 见 图 2-51)。 


In[95]: 
# 使 用 2 个 隐 层 ， 每 个 包含 10 个 单元 
mlp = MLPCLlassifier(solver='lbfgs', random state=0, 
hidden_layer_sizes=[10, 10]) 
mlp.fit(X_train, y_train) 
mglearn.plots.plot_ 2d_separator(mlp, X_train, fill=True, alpha=.3) 
mglearn.discrete scatter(X_ train[:, 0], Xx_train[:, 1], y_train) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 





In[96] : 
# 使 用 2 个 隐 层 ， 每 个 包含 16 个 单元 ， 这 次 使 用 tanh 非 线性 


mLp = MLPCLassifier(solver='lbfgs', activation='tanh', 
random_state=0，hidden_Layer_stizes=[10，10]) 

mlp.fit(X_train, y_train) 

mglearn.plots.plot 2d_separator(mlp, X_train, fill=True, alpha=.3) 

mglearn.discrete scatter(X_train[:, 0], Xx_train[:, 1], y_train) 

plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 





Feature 1 








Feature 0 





图 2-50: 包含 2 个 隐 层 、 每 个 隐 层 包含 10 个 隐 单 元 的 神经 网 络 学 到 的 决策 边界 (激活 函数 为 relu) 





Feature 1 








Feature 0 








图 2-51: 包含 2 个 隐 层 、 每 个 隐 层 包含 10 个 隐 单 元 的 神经 网 络 学 到 的 决策 边界 (激活 函数 为 tanh) 
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最 后 ， 我 们 还 可 以 利用 L2 惩罚 使 权重 趋向 于 0， 从 而 控制 神经 网 络 的 复杂 度 ， 正 如 我 们 在 
岭 回 归 和 线性 分 类 器 中 所 做 的 那样 。MLPClassifier 中 调节 工 2 惩罚 的 参数 是 alpha (与 线 
性 回归 模型 中 的 相同 )， 它 的 默认 值 很 小 ( 弱 正 则 化 )。 图 2-52 显示 了 不 同 aLpha 值 对 two_ 
moons 数据 集 的 影响 ， 用 的 是 2 个 隐 层 的 神经 网 络 ， 每 层 包 含 10 个 或 100 个 单元 : 


In[97]: 
fig, axes = plt.subplots(2, 4, figsize=(20, 8)) 
for axx, n_hidden nodes in zip(axes, [10, 100]): 
for ax, alpha in zip(axx, [0.0001, 0.01, 0.1, 1]): 
mlp = MLPCLassifier(soLver='Lbfgs' ，random_state=0， 
hidden_Layer_sizes=[n_hidden_nodes，n_hidden_nodes]， 
alpha=alpha) 
mlp.fit(X_train, y_train) 
mglearn.plots.plot 2d_separator(mlp, X_train, fill=True, alpha=.3, ax=ax) 
mglearn.discrete_scatter(X_train[:, 0], Xx_train[:, 1], y_train, ax=ax) 
ax.set_ title("n_hidden=[{}, {}]\nalpha={:.4f}".format( 
n_hidden_nodes, n_hidden_nodes, alpha)) 


要 











n_hidden=[10, 10] n_hidden=[10, 10] n_hidden=[10, 10] 


LI n_hidden=[10, 10] 
alpha=0.0001 alpha=0.0100 alpha=0.1000 


“alpha=1.0000 


n_hidden=[100, 100] n_hidden=[100, 100] n_hidden=[100, 100] n_hidden=[100, 100] 
lpha=0.0001 alpha=0.0100 lpha=0.1000 alpha=1.0000 














图 2-52: 不 同 隐 单 元 个 数 与 alpha 参数 的 不 同 设 定 下 的 决策 函数 


现在 你 可 能 已 经 认识 到 了 ， 控 制 神经 网 络 复杂 度 的 方法 有 很 多 种 : 隐 层 的 个 数 、 每 个 隐 层 
中 的 单元 个 数 与 正则 化 (alpha)。 实 际 上 还 有 更 多 ,但 这 里 不 再 过 多 介绍 。 


神经 网 络 的 一 个 重要 性 质 是 ， 在 开始 学 习 之 前 其 权重 是 随机 设置 的 ， 这 种 随机 初始 化 会 影 
响 学 到 的 模型 。 也 就 是 说 ， 即 使 使 用 完全 相同 的 参数 ， 如 果 随 机 种 子 不 同 的 话 ， 我 们 也 可 
能 得 到 非常 不 一 样 的 模型 。 如 果 网 络 很 大 ， 并 且 复 杂 度 选择 合理 的 话 ， 那 么 这 应 该 不 会 对 
精度 有 太 大 影响 ， 但 应 该 记 住 这 一 点 〈 特 别 是 对 于 较 小 的 网 络 ) 。 图 2-53 显示 了 几 个 模型 
的 图 像 ， 所 有 模型 都 使 用 相同 的 参数 设置 进行 学 习 : 


In[98] : 
fig, axes = plt.subplots(2, 4, figsize=(20, 8)) 
for i, ax in enumerate(axes.ravel()): 
mlp = MLPCLlassifier(solver='lbfgs', random state=i, 
hidden_layer_sizes=[100, 100]) 
mlp.fit(X_train, y_train) 








mglearn.plots.plot 2d_separator(mlp, X_train, fill=True, alpha=.3, ax=ax) 
mglearn.discrete scatter(X_ train[:, 0], Xx_train[:, 1], y_train, ax=ax) 

















图 2-53: 相同 参数 但 不 同 随机 初始 化 的 情况 下 学 到 的 决策 函数 
为 了 在 现实 世界 的 数据 上 进一步 理解 神经 网 络 ， 我 们 将 MLPClassifier 应 用 在 乳腺 癌 数 据 
集 上 。 首 先 使 用 默认 参数 


In[99] : 
print("Cancer data per-feature maxima:\n{}".format(cancer.data.max(axis=0))) 








Out[99] : 
Cancer data per-feature maxima: 
[ 28.110 39.280 188.500 2501.000 0.163 0.345 0.427 
0.201 0.304 0.097 2.873 4.885 21.980 542.200 
0.031 0.135 0.396 0.053 0.079 0.030 36.040 
49.540 251.200 4254.000 0.223 1.058 L252 0.291 
0.664 0.207] 


In[100]: 
X_train, X_test, y_train, y_test = train test split( 
cancer .data, cancer.target, random_ state=0) 


mLp = MLPCLassifier(random state=42) 
mlp.fit(X_train, y_train) 


print("Accuracy on training set: {:.2f}".format(mlp.score(X_train, y_train))) 
print("Accuracy on test set: {:.2f}".format(mlp.score(X_test, y_test))) 


Out[100] : 
Accuracy on training set: 0.92 
Accuracy on test set: 0.90 


MLP 的 精度 相当 好 ， 但 没有 其 他 模型 好 。 与 较 早 的 SVC 例子 相同 ， 原 因 可 能 在 于 数据 的 
缩放 。 神 经 网 络 也 要 求 所 有 输入 特征 的 变化 范围 相似 ， 最 理想 的 情况 是 均值 为 0、 方差 为 
1。 我 们 必须 对 数据 进行 缩放 以 满足 这 些 要 求 。 同 样 ， 我 们 这 里 将 人 工 完 成 ， 但 在 第 3 章 
将 会 介绍 用 StandardScaler 自动 完成 : 





In[101] : 
# 计算 训练 集中 每 个 特征 的 平均 值 


mean_on_train = X_train.mean(axis=0) 
# 计算 训练 集中 每 个 特征 的 标准 差 


std_on_train = X_train.std(axis=0) 


























# 减 去 平均 值 ， 然 后 乘 以 标准 差 的 倒数 

# 如 此 运算 之 后 ，mean=0，std=1 

X_train_scaled = (X_train - mean_on_tratin) / std_on_train 
# 对 测试 集 做 相同 的 变换 (使 用 训练 集 的 平均 值 和 标准 差 ) 


X_test_scaled = (X_test - mean_on_train) / std_on_train 
































mlp = MLPCLassifier(random_state=0) 
mlp.fit(X_train_scaled, y_train) 


print("Accuracy on training set: {:.3f}".format( 
mlp.score(X_train_scaled, y_train))) 
print("Accuracy on test set: {:.3f}".format(mlp.score(X_ test_scaled, y_test))) 


Out[101] : 
Accuracy on training set: 0.991 
Accuracy on test set: 0.965 


ConvergenceWarning: 
Stochastic Optimizer: Maximum iterations reached and the optimization 
hasn't converged yet. 


缩放 之 后 的 结果 要 好 得 多 ， 而 且 也 相当 有 竞争 力 。 不 过 模型 给 出 了 一 个 警告 ， 告 诉 我 们 
已 经 达到 最 大 迭代 次 数 。 这 是 用 于 学 习 模 型 的 adan 算法 的 一 部 分 ， 告 诉 我 们 应 该 增加 友 
代 次 数 : 
In[102] : 


mLp = MLPClassifier(max_iter=1000, random_state=0) 
mlp.fit(X_train_scaled, y_train) 











print("Accuracy on training set: {:.3f}".format( 
mlp.score(X_train_scaled, y_train))) 
print("Accuracy on test set: {:.3f}".format(mlp.score(X_ test_scaled, y_test))) 


Out[102]: 
Accuracy on training set: 0.995 
Accuracy on test set: 0.965 


增加 迭代 次 数 仅 提 高 了 训练 集 性 能 ， 但 没有 提高 泛 化 性 能 。 不 过 模型 的 表现 相当 不 错 。 由 
于 训练 性 能 和 测试 性 能 之 间 仍 有 一 些 差 距 ， 所 以 我 们 可 以 尝试 降低 模型 复杂 度 来 得 到 更 好 
的 泛 化 性 能 。 这 里 我 们 选择 增 大 alpha 参数 (变化 范围 相当 大 ， 从 9.6991 到 1) ， 以 此 向 
权重 添加 更 强 的 正则 化 : 


In[103]: 
mlp = MLPClassifier(max_iter=1000, alpha=1, random_state=0) 
mlp.fit(X_train_scaled, y_train) 








荆 


print("Accuracy on training set: {:.3f}".format( 





mlp.score(X_train_scaled, y_train))) 
print("Accuracy on test set: {:.3f}".format(mlp.score(X_test_scaled, y_test))) 


Out[103] : 


Accuracy on training set: 0.988 
Accuracy on test set: 0.972 


这 得 到 了 与 我 们 目前 最 好 的 模型 相同 的 性 能 。” 


虽然 可 以 分 析 神 经 网 络 学 到 了 什么 ， 但 这 通常 比分 析 线 性 模型 或 基于 树 的 模型 更 为 复杂 。 
要 想 观 察 模型 学 到 了 什么 ， 一 种 方法 是 查看 模型 的 权重 。 你 可 以 在 scikit-tearn 示例 库 中 
查看 这 样 的 一 个 示例 (http://scikit-learn.org/stable/auto_examples/neural_networks/plot_mnist_ 
filters.html) 。 对 于 乳腺 癌 数 据 集 ， 这 可 能 有 点 难以 理解 。 下 面 这 张 图 (图 2-54) 显示 了 连 
接 输 入 和 第 一 个 隐 层 之 间 的 权重 。 图 中 的 行 对 应 30 个 输入 特征 ， 列 对 应 100 个 隐 单 元 。 
浅 色 代表 较 大 的 正 值 ， 而 深 色 代表 负 值 。 


In[104] : 
plt.figure(figsize=(20, 5)) 
plt.imshow(mlp.coefs_[0], interpolation='none', cmap='viridis') 
plt.yticks(range(30), cancer.feature_names) 
plt.xlabel("Columns in weight matrix") 
plt.ylabel("Input feature") 
plt.colorbar() 






































Columns in weight matrix 











图 2-54: 神经 网 络 在 乳腺 癌 数 据 集 上 学 到 的 第 一 个 隐 层 权重 的 热 图 


我 们 可 以 推断 ， 如 果 某 个 特征 对 所 有 隐 单 元 的 权重 都 很 小 ， 那 么 这 个 特征 对 模型 来 说 就 
“不 太 重 要 ”。 可 以 看 到 ， 与 其 他 特征 相 比 ,“mean smoothness” “mean compactness” 以 及 
“smoothness error” 和 “fractal dimension error” 之 间 的 特征 的 权重 都 相对 较 小 。 这 可 能 说 
明 这 些 特 征 不 太 重 要 ， 也 可 能 是 我 们 没有 用 神经 网 络 可 以 使 用 的 方式 来 表示 这 些 特征 。 

我 们 还 可 以 将 连接 隐 层 和 输出 层 的 权重 可 视 化 ， 但 它们 更 加 难以 解释 。 

虽然 MLPCLassifier 和 MLPRegressor 为 最 常见 的 神经 网 络 架 构 提 供 了 易于 使 用 的 接口 ， 但 
它们 只 包含 神经 网 络 潜在 应 用 的 一 部 分 。 如 果 你 有 兴趣 使 用 更 灵活 或 更 大 的 模型 ， 我 们 建 








注 13: 现在 你 可 能 已 经 注意 到 了 ,许多 表现 很 好 的 模型 都 得 到 了 完全 相同 的 精度 0.972。 这 说 明 所 有 模型 犯 
错 的 数量 完全 相同 , 也 就 是 4 个 。 如 果 你 对 比 实际 预测 结果 , 其 至 会 发 现 它们 都 在 相同 的 地 方 犯错 1! 
这 可 能 是 因为 数据 集 非 常 小 ， 或 者 是 因为 这 些 点 与 其 他 点 的 确 不 同 。 
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议 你 看 一 下 除了 scikit-learn 之 外 的 很 棒 的 深度 学 习 库 。 对 于 Python 用 户 来 说 ， 最 为 完 
善 的 是 keras、Lasagna 和 tensor-flow。lasagna 是 基于 theano 库 构 建 的 ， 而 keras 既 可 
以 用 tensor-flow 也 可 以 用 theano。 这 些 库 提供 了 更 为 灵活 的 接口 ， 可 以 用 来 构建 神经 网 
络 并 跟踪 深度 学 习 研 究 的 快速 发 展 。 所 有 流行 的 深度 学 习 库 也 都 允许 使 用 高 性 能 的 图 形 处 
理 单元 (GPU) ， 而 scikit-learn 不 支持 GPU。 使 用 GPU 可 以 将 计算 速度 加 快 10 到 100 
倍 ，GPU 对 于 将 深度 学 习 方 法 应 用 到 大 型 数据 集 上 至 关 重 要 。 


3. 优点 、 缺 点 和 参数 

在 机 器 学 习 的 许多 应 用 中 ， 神 经 网 络 再 次 成 为 最 先进 的 模型 。 它 的 主要 优点 之 一 是 能 够 获 
取 大 量 数据 中 包含 的 信息 ， 并 构建 无 比 复杂 的 模型 。 给 定 足 够 的 计算 时 间 和 数据 ， 并 且 仔 
细 调 市 参数 ， 神 经 网 络 通常 可 以 打败 其 他 机 器 学 习 算法 (无 论 是 分 类 任务 还 是 回归 任务 )。 


这 就 引出 了 下 面 要 说 的 缺点 。 神 经 网 络 一 一 特别 是 功能 强大 的 大 型 神经 网 络 一 一 通常 需要 
很 长 的 训练 时 间 。 它 还 需要 仔细 地 预 处 理 数据 ， 正 如 我 们 这 里 所 看 到 的 。 与 SVM 类 似 ， 
神经 网 络 在 “均匀 ”数据 上 的 性 能 最 好 ， 其 中 “均匀 ”是 指 所 有 特征 都 具有 相似 的 含义 。 
如 果 数 据 包含 不 同 种 类 的 特征 ， 那 么 基于 树 的 模型 可 能 表现 得 更 好 。 神 经 网 络 调 参 本 身 也 
是 一 门 艺术 。 调 节 神 经 网 络 模型 和 训练 模型 的 方法 有 很 多 种 ， 我 们 只 是 晴 旺 点 水 地 尝试 了 
几 种 而 已 。 


估计 神经 网 络 的 复杂 度 。 最 重要 的 参数 是 层 数 和 每 层 的 隐 单 元 个 数 。 你 应 该 首先 设置 1 个 
或 2 个 隐 层 ， 然 后 可 以 逐步 增加 。 每 个 隐 层 的 结 点 个 数 通常 与 输入 特征 个 数 接近 ， 但 在 几 
千 个 结 点 时 很 少 会 多 于 特征 个 数 。 


在 考虑 神经 网 络 的 模型 复杂 度 时 ， 一 个 有 用 的 度量 是 学 到 的 权重 (或 系数 ) 的 个 数 。 如 果 
尔 有 一 个 包含 100 个 特征 的 二 分 类 数据 集 ， 模 型 有 100 个 隐 单 元 ， 那 么 输入 层 和 第 一 个 隐 
层 之 间 就 有 100 * 100 = 10 000 个 权重 。 在 隐 层 和 输出 层 之 间 还 有 100* 1 = 100 个 权重 ， 总 
共 约 10 100 个 权重 。 如 果 添 加 含有 100 个 隐 单 元 的 第 二 个 隐 层 ， 那 么 在 第 一 个 隐 层 和 第 二 
个 隐 层 之 间 又 有 100 * 100 = 10 000 个 权重 ， 总 数 变 为 约 20 100 个 权重 。 如 果 你 使 用 包含 
1000 个 隐 单 元 的 单 隐 层 ， 那 么 在 输入 层 和 隐 层 之 间 需 要 学 习 100 * 1000 = 100 000 个 权重 ， 
隐 层 到 输出 层 之 间 需 要 学 习 1000 * 1 = 1000 个 权重 ， 总 共 101 000 个 权重 。 如 果 再 添加 第 
二 个 隐 层 ， 就 会 增加 1000 * 1000 = 1 000 000 个 权重 ， 总 数 变 为 巨大 的 1 101 000 个 权重 ， 
这 比 含有 2 个 隐 层 、 每 层 100 个 单元 的 模型 要 大 50 倍 。 

神经 网 络 调 参 的 常用 方法 是 ， 首 先 创建 一 个 大 到 足以 过 拟 合 的 网 络 ， 确 保 这 个 网 络 可 以 对 
任务 进行 学 习 。 知 道 训练 数据 可 以 被 学 习 之 后 ， 要 么 缩小 网 络 ， 要 么 增 大 alpha 来 增强 正 
则 化 ， 这 可 以 提高 泛 化 性 能 。 

在 我 们 的 实验 中 ， 主 要 关注 模型 的 定义 : 层 数 、 每 层 的 结 点 个 数 、 正 则 化 和 非 线 性 。 这 些 
内 容 定义 了 我 们 想 要 学 习 的 模型 。 还 有 一 个 问题 是 ， 如 何 学 习 模型 或 用 来 学 习 参 数 的 算 
法 ， 这 一 点 由 solver 参数 设 定 。solver 有 两 个 好 用 的 选项 。 默 认 选 项 是 'adam' ， 在 大 多 
数 情况 下 效果 都 很 好 ， 但 对 数据 的 缩放 相当 敏感 (因此 ， 始 终 将 数据 缩放 为 均值 为 0、 方 
差 为 1 是 很 重要 的 ) 。 另 一 个 选项 是 'Lbfgs' ， 其 鲁 棒 性 相当 好 ， 但 在 大 型 模型 或 大 型 数据 
集 上 的 时 间 会 比较 长 。 还 有 更 高 级 的 "sgd' 选项 ， 许 多 深度 学 习 研 究 人 员 都 会 用 到 。 ' sgd' 
选项 还 有 许多 其 他 参数 需要 调节 ， 以 便 获 得 最 佳 结 果 。 你 可 以 在 用 户 指南 中 找到 所 有 这 些 




























































































































































































90 | 第 2 章 


中 





数 及 其 定义 。 当 你 开始 使 用 MLP 时 ， 我 们 建议 使 用 'adam' 和 ' lbfgs'。 

fit 会 重 置 模型 

scikit-learn 模型 的 一 个 重要 性 质 就 是 ， 调 用 fit 总 会 重 置 模型 之 前 学 到 的 
所 有 内 容 。 因 此 ， 如 果 你 在 一 个 数据 集 上 构建 模型 ， 然 后 在 另 一 个 数据 集 上 再 次 
调用 fit， 那 么 模型 会 “忘记 ”从 第 一 个 数据 集中 学 到 的 所 有 内 容 。 你 可 以 
对 一 个 模型 多 次 调用 fit， 其 结果 与 在 “新 ”模型 上 调用 fit 是 完全 相同 的 。 


2.4 分 类 器 的 不 确定 度 估 计 


我 们 还 没有 谈 到 scikit-learn 接口 的 另 一 个 有 用 之 处 ， 就 是 分 类 器 能 够 给 出 预测 的 不 确 
定 度 估计 。 一 般 来 说 ， 你 感 兴趣 的 不 仅 是 分 类 器 会 预测 一 个 测试 点 属于 哪个 类 别 ， 还 包括 
它 对 这 个 预测 的 置信 程度 。 在 实践 中 ， 不 同类 型 的 错误 会 在 现实 应 用 中 导致 非常 不 同 的 结 
果 。 想 象 一 个 用 于 测试 癌症 的 医疗 应 用 。 假 昌 性 预测 可 能 只 会 让 患者 接受 额外 的 测试 ， 但 
假 明 性 预测 却 可 能 导致 重病 没有 得 到 治疗 。 第 6 章 会 进一步 探讨 这 一 主题 。 

scikit-learn 中 有 两 个 函数 可 用 于 获取 分 类 器 的 不 确定 度 估计 : decision_function 和 
predict_proba。 大 多 数 分 类 器 (但 不 是 全 部 ) 都 至 少 有 其 中 一 个 函数 ， 很 多 分 类 器 两 个 都 
有 。 我 们 来 构建 一 个 GradientBoostingClassifier 分 类 器 (同时 拥有 decision_function 
和 predict_proba 两 个 方法 )， 看 一 下 这 两 个 函数 对 一 个 模拟 的 二 维 数 据 集 的 作用 : 


In[105]: 
from sklearn.ensemble import GradientBoostingClassifier 
from sklearn.datasets import make_circles 
X, y = make_circles(noise=0.25, factor=0.5, random_state=1) 





















































# 为 了 便于 说 明 ， 我 们 将 两 个 类 别 重 命名 为 "blue" 和 "red" 
y_named = np.array(["blue", "red"])[y] 


# 我 们 可 以 对 任意 个 数组 调用 train_test_split 

# 所 有 数组 的 划分 方式 都 是 一 致 的 

X_train, X_test, y_train named, y_test named, y_train, y_test = \ 
train_test_split(X, y_named, y, random_state=0) 











# 构建 梯度 提升 模型 
gbrt = GradientBoostingClassifier(random_state=0) 
gbrt.fit(X_train, y_train_named) 


2.4.1 决策 函数 
对 于 二 分 类 的 情况 ，decision_function 返回 值 的 形状 是 (n_samples,)， 为 每 个 样本 都 返 
一 个 浮 点 数 : 
In[106] : 
print("X_test.shape: {}".format(X_test.shape)) 


print("Decision function shape: {}".format( 
gbrt.decision function(X_test).shape)) 





回 





Out[106] : 
X_test.shape: (25, 2) 
Decision function shape: (25,) 


对 于 类 别 1 来 说 ， 这 个 值 表示 模型 对 该 数据 点 属于 “ 正 ” 类 的 置信 程度 。 正 值 表 示 对 正 类 
的 偏好 ， 负 值 表示 对 “ 反 类 ”( 其 他 类 ) 的 偏好 : 


In[107]: 


# 显示 decision_function 的 前 几 个 元 素 
print("Decision function:\n{}".format(gbrt.decision function(X_test)[:6])) 








Out[107]: 
Decision function: 
[ 4.136 -1.683 -3.951 -3.626 4.29 3.662] 


我 们 可 以 通过 仅 查 看 决策 函数 的 正 负 号 来 再 现 预测 值 : 


In[108]: 
print("Thresholded decision function:\n{}".format( 
gbrt.decision function(X_test) > 0)) 
print("Predictions:\n{}".format(gbrt.predict(X_test))) 

















Out[108]: 

Thresholded decision function: 

[ True False False False True True False True True True False True 
True False True False False False True True True True True False 
FaLse] 

Predictions: 

['red' 'blue' 'blue' 'blue' 'red' 'red' 'blue' 'red' 'red' 'red' 'blue’ 
"red' 'red' 'blue' 'red' 'blue' 'blue' 'blue' 'red' 'red' 'red' 'red' 
'red' 'blue' 'blue'] 


对 于 二 分 类 问题 ,“ 反 ”类 始终 是 classes_ 属性 的 第 一 个 元 素 ,“ 正 ”类 是 classes_ 的 第 
二 个 元 素 。 因 此 ， 如 果 你 想 要 完全 再 现 predict 的 输出 ， 需 要 利用 classes_ 属性 : 


In[109] : 
# 将 布尔 值 True/FatLse 转 换 成 6 和 1 


greater_zero = (gbrt.decision function(X_test) > 0).astype(int) 
# 利用 9 和 1 作为 classes_ 的 索引 
pred = gbrt.classes_[greater_zero] 
# pred 与 gbrt.predict 的 输出 完全 相同 
print("pred is equal to predictions: {}".format( 
np.all(pred == gbrt.predict(X_test)))) 





























Out[109]: 
pred is equal to predictions: True 


decision_function 可 以 在 任意 范围 取 值 ， 这 取决 于 数据 与 模型 参数 : 


In[110]: 
decision function = gbrt.decision function(X_test) 
print("Decision function minimum: {:.2f} maximum: {:.2f}".format( 
np.min(decision function), np.max(decision_function))) 




















Out[110] : 


Decision function minimum: -7.69 maximum: 4.29 





由 于 可 以 任意 缩放 ， 因 此 decision_function 的 输出 往往 很 难 解 释 。 


在 下 面 的 例子 中 ， 我 们 利用 颜色 编码 在 二 维 平面 中 画 出 所 有 点 的 dectsion_function， 还 有 
决策 边界 ， 后 者 我 们 之 间 见 过 。 我 们 将 训练 点 画 成 圆 ， 将 测试 数据 画 成 三 角 (图 2-55) : 
In[111] : 

fig, axes = plt.subplots(1, 2, figsize=(13, 5)) 

mglearn.tools.plot 2d_separator(gbrt, X, ax=axes[0], alpha=.4, 


fill=True, cm=mglearn.cm2) 
scores_image = mglearn.tools.plot 2d_scores(gbrt, X, ax=axes[1], 


alpha=.4, cm=mglearn.ReB1) 








for ax in axes: 
# 画 出 训练 点 和 测试 点 
mgLearn.discrete_scatter(X_test[:，0]，X_test[:，1]，y_test， 
markers='^', ax=ax) 
mglearn.discrete scatter(X_ train[:, 0], Xx_train[:, 1], y_train, 
markers='o' ，ax=ax) 
ax.set xlabel("Feature 0") 
ax.set_ylabel("Feature 1") 
cbar = plt.colorbar(scores_image, ax=axes.tolist()) 
axes[0].Legend(["Test class 0", "Test class 1", "Train class 0" ， 
"Train class 1"], ncol=4, loc=(.1, 1.1)) 
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图 2-55: 梯度 提升 模型 在 一 个 二 维 玩 具 数据 集 上 的 决策 边界 ( 左 ) 和 决策 函数 ( 右 ) 


给 出 预测 结果 ， 又 给 出 分 类 器 的 置信 程度 ， 这 样 给 出 的 信息 量 更 大 。 但 在 上 面 的 图 像 
中 ， 很 难 分 辨 出 两 个 类 别 之 间 的 边界 。 
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2.4.2 ”预测 概率 


predict_proba 的 输出 是 每 个 类 别 的 概率 ， 通 常 比 decision_function 的 输出 更 容易 理解 。 
对 于 二 分 类 问题 ， 它 的 形状 始终 是 (n_samptes，2)， 


In[112] : 
print("Shape of probabilities: {}".format(gbrt.predict proba(X_test).shape)) 


Out[112]: 
Shape of probabilities: (25, 2) 


每 行 的 第 一 个 元 素 是 第 一 个 类 别 的 估计 概率 ， 第 二 个 元 素 是 第 二 个 类 别 的 估计 概率 。 由 于 
predict_proba 的 输出 是 一 个 概率 ， 因 此 总 是 在 0 和 1 之 间 ， 两 个 类 别 的 元 素 之 和 始终 为 1: 


In[113] : 


# 显示 predict_proba 的 前 几 个 元 素 
print("Predicted probabilities:\n{}".format( 
gbrt.predict proba(X_test[:6]))) 








Out[113]: 
Predicted probabilities: 
[[ 0.016 0.984] 


[ 0.843 0.157] 
[ 0.981 0.019] 
[ 0.974 0.026] 
[ 90.014 0.986] 
[ 90.025 0.975]] 





由 于 两 个 类 别 的 概率 之 和 为 1， 因此 只 有 一 个 类 别 的 概率 超过 50%。 这 个 类 别 就 是 模型 的 
预测 结果 。" 

在 上 一 个 输出 中 可 以 看 到 ， 分 类 器 对 大 部 分 点 的 置信 程度 都 是 相对 较 高 的 。 不 确定 度 大 小 
实际 上 反映 了 数据 依赖 于 模型 和 参数 的 不 确定 度 。 过 拟 合 更 强 的 模型 可 能 会 做 出 置信 程度 
更 高 的 预测 ， 即 使 可 能 是 错 的 。 复 杂 度 越 低 的 模型 通常 对 预测 的 不 确定 度 越 大 。 如 果 模 型 
给 出 的 不 确定 度 符合 实际 情况 ， 那 么 这 个 模型 被 称 为 校正 (calibrated) 模型 。 在 校正 模型 
中 ， 如 果 预 测 有 70% 的 确定 度 ， 那 么 它 在 70% 的 情况 下 正确 。 


在 下 面 的 例子 中 (图 2-56) ， 我 们 再 次 给 出 该 数据 集 的 决策 边界 ， 以 及 类 别 1 的 类 别 概率 : 


In[114] : 
fig, axes = plt.subplots(1, 2, figsize=(13, 5)) 





























mglearn.tools.plot_2d_separator( 
gbrt, X, ax=axes[0], alpha=.4, fill=True, cm=mglearn.cm2) 
scores_image = mglearn.tools.plot 2d_scores( 
gbrt, X, ax=axes[1], alpha=.5, cm=mglearn.ReBl, function='predict proba') 


for ax in axes: 
# 画 出 训练 点 和 测试 点 








注 14: 由 于 概率 是 浮 点 数 ,所 以 不 太 可 能 两 个 都 等 于 0.300。 但 如 果 出 现 了 这 种 情况 ,预测 结果 是 随机 选择 的 。 
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mgLearn.discrete_scatter(X_test[:，0]，X_test[:，1]，y_test， 
markers='^' ，ax=ax) 
mgLearn.discrete_scatter(X_train[:，0]，X_train[:，1]，y_train， 
markers='o' ，ax=ax) 
ax.set xlabel("Feature 0") 
ax.set_ylabel("Feature 1") 
cbar = plt.colorbar(scores_image, ax=axes.tolist()) 
axes[0].Legend(["Test class 0", "Test class 1", "Train class 0" ， 
"Train class 1"], ncol=4, loc=(.1, 1.1)) 








[A Testclasso A Testclass1 ® Trainclass0  ®@ fTrainclass1| Test class 0 人 Testclass1 ®@ Train class 0 @ Train class 1 
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图 2-56: 图 2-55 中 梯度 提升 模型 的 决策 边界 ( 左 ) 和 预测 概率 
这 张 图 中 的 边界 更 加 明确 ， 不 确定 的 小 块 区 域 清晰 可 见 


scikit-learn 网 站 (http://scikit- learn.org/stable/auto_examples/classification/plot_classifier_ 


comparison.html) 给 出 了 许多 模型 的 对 比 ， 以 及 不 确定 度 估计 的 形状 。 我 们 在 图 2-57 中 
复制 了 这 一 结果 ， 我 们 也 建议 你 去 网 站 查看 那些 示例 。 






















































































图 2-57: scikit-learn 中 几 种 分 类 器 在 模拟 数据 集 上 的 对 比 (图 片 来 源 : http://scikit-learn.org) 
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2.4.3 ”多 分 类 问题 的 不 确定 度 

到 目前 为 止 ， 我 们 只 讨论 了 二 分 类 问题 中 的 不 确定 度 估计 。 但 decision_function 和 
predict_proba 也 适用 于 多 分 类 问题 。 我 们 将 这 两 个 国 数 应 用 于 音 尾 花 (Iris) 数据 集 ， 这 
是 一 个 三 分 类 数据 集 : 


In[115]: 
from sklearn.datasets import load iris 


iris = load_iris() 
X_train, X_test, y_train, y_test = train test_ split( 
iris.data, iris.target, random_state=42) 


gbrt = GradientBoostingClassifier(learning_rate=0.01, random_state=0) 
gbrt.fit(X_train, y_train) 


In[116]: 
print("Decision function shape: {}".format(gbrt.decision function(X_test).shape)) 
# 显示 决策 函数 的 前 儿 个 元 素 


print("Decision function:\n{}".format(gbrt.decision function(X_test)[:6, :])) 


Out[116]: 
Decision function shape: (38, 3) 
Decision function: 
[[-0.529 1.466 -0.504] 
[ 1.512 -0.496 -0.503] 
[-0.524 -0.468 1.52 ] 
[-0.529 1.466 -0.504] 
[-0.531 1.282 0.215] 
[ 1.512 -0.496 -0.503]] 


对 于 多 分 类 的 情况 ，decision_function 的 形状 为 (n_samples，n_classes)， 和 每 一 列 对 应 每 
个 类 别 的 “确定 度 分 数 ”， 分数 较 高 的 类 别 可 能 性 更 大 ， 得 分 较 低 的 类 别 可 能 性 较 小 。 你 
可 以 找 出 每 个 数据 点 的 最 大 元 素 ， 从 而 利用 这 些 分 数 再 现 预 测 结果 : 


In[117] : 
print("Argmax of decision function:\n{}".format( 


np.argmax(gbrt.decision function(X_test), axis=1))) 
print("Predictions:\n{}".format(gbrt.predict(X_test))) 
































Out[117]: 
Argmax of decision function: 
[10211012112000012112020222220000100210] 
Predictions: 
[10211012112000012112020222220000100210] 


predict_proba 输出 的 形状 相同 ， 也 是 (n_samples，n_classes)。 同 样 ， 每 个 数据 点 所 有 可 
能 类 别 的 概率 之 和 为 1: 


In[118]: 


# 显示 predict_proba 的 前 几 个 元 素 
print("Predicted probabilities:\n{}".format(gbrt.predict proba(X_test)[:6])) 











# 显示 每 行 的 和 都 是 1 
print("Sums: {}".format(gbrt.predict proba(X_test)[:6].sum(axis=1))) 





Out[118]: 
Predicted probabilities: 
[[ 0.107 0.784 0.109] 
[ 0.789 0.106 0.105] 
[ 0.102 0.108 0.789] 
[ 0.107 0.784 0.109] 
[ 0.108 0.663 0.228] 
[ 0.789 0.106 0.105]] 


Sums: [ 1. 1. 1. 1. 1. 1.] 
同样 ， 我 们 可 以 通过 计算 predict_proba 的 argmax 来 再 现 预测 结果 : 


In[119]: 
print("Argmax of predicted probabilities:\n{}".format( 
np.argmax(gbrt.predict proba(X_test), axis=1))) 
print("Predictions:\n{}".format(gbrt.predict(X_test))) 


Out[119]: 
Argmax of predicted probabilities: 
[10211012112000012112020222220000100210] 
Predictions: 
[10211012112000012112020222220000100210] 


总 之 ，predict_proba 和 decision_function 的 形状 始终 相同 ， 都 是 (n_ samptes，n_- 
classes) 除了 二 分 类 特殊 情况 下 的 decision_function。 对 于 二 分 类 的 情况 ，decision_ 
function 只 有 一 列 ， 对 应 “ 正 ” 类 classes_[1]。 这 主要 是 由 于 历史 原因 。 


如 果 有 n_classes 列 ， 你 可 以 通过 计算 每 一 列 的 argmax 来 再 现 预测 结果 。 但 如 果 类 别 
是 字符 串 ， 或 者 是 整数 ， 但 不 是 从 0 开始 的 连续 整数 的 话 ， 一 定 要 小 心 。 如 果 你 想 要 对 
比 predict 的 结果 与 decision_function 或 predict_proba 的 结果 ， 一 定 要 用 分 类 器 的 
classes_ 属性 来 获取 真实 的 属性 名 称 : 


In[120]: 
Logreg = LogisticRegression() 


















































# 用 Iris 数据 集 的 类 别名 称 来 表示 每 一 个 目标 值 

named_target = iris.target names[y_train] 

logreg.fit(X_train, named_target) 

print("unique classes in training data: {}" .format(Logreg.CLasses_)) 

print("predictions: {}".format(logreg.predict(X_test)[:10])) 

argmax_dec_ func = np.argmax(logreg.decision function(X_test), axis=1) 

print("argmax of decision function: {}".format(argmax_dec_func[:10])) 

print("argmax combined with classes_: {}".format( 
logreg.classes_[argmax_dec_func][:10])) 


Out[120] : 
unique classes in training data: ['setosa' 'versicolor' 'virginica'] 
predictions: ['versicolor' 'setosa' 'virginica' 'versicolor' 'versicolor' 
'setosa' 'versicolor' 'virginica' 'versicolor' 'versicolor'] 





argmax of decision function: [1021101211] 
argmax combined with classes_: ['versicolor' 'setosa' 'virginica' 'versicolor' 
'versicolor' 'setosa' 'versicolor' 'virginica' 'versicolor' 'versicolor'] 


2.5 小 结 与 展望 


本 章 首先 讨论 了 模型 复杂 度 ， 然 后 讨论 了 泛 化 ， 或 者 说 学 习 一 个 能 够 在 前 所 未 见 的 新 数据 
上 表现 良好 的 模型 。 这 就 引出 了 欠 拟 合 和 过 拟 合 的 概念 ， 前 者 是 指 一 个 模型 无 法 获取 训练 
数据 中 的 所 有 变化 ， 后 者 是 指 模型 过 分 关注 训练 数据 ， 但 对 新 数据 的 泛 化 性 能 不 好 。 


然后 本 章 讨 论 了 一 系列 用 于 分 类 和 回归 的 机 器 学 习 模 型 ， 各 个 模型 的 优点 和 缺点 ， 以 及 如 
何 控制 它们 的 模型 复杂 度 。 我 们 发 现 ， 对 于 许多 算法 而 言 ， 设 置 正确 的 参数 对 模型 性 能 
关 重 要 。 有 些 算法 还 对 输入 数据 的 表示 方式 很 敏感 ， 特 别 是 特征 的 缩放 。 因 此 ， 如 有 果 宣 目 
地 将 一 个 算法 应 用 于 数据 集 ， 而 不 去 理解 模型 所 做 的 假设 以 及 参数 设 定 的 含义 ， 不 太 可 能 
会 得 到 精度 高 的 模型 。 
本 章 包含 大 量 有 关 算法 的 信息 ， 在 继续 阅读 后 续 章 节 之 前 你 不 必 记 住所 有 这 些 细节 。 但 
是 ， 这 里 提 到 的 有 关 模 型 的 某 些 知识 〈 以 及 在 特定 情况 下 使 用 哪 种 模型 ) 对 于 在 实践 中 成 
功 应 用 机 器 学 习 模型 是 很 重要 的 。 关 于 何 时 使 用 哪 种 模型 ， 下 面 是 一 份 快 速 总 结 。 





















































最 近邻 

适用 于 小 型 数据 集 ， 是 很 好 的 基准 模型 ， 很 容易 解释 。 
线性 模型 

非常 可 靠 的 首选 算法 ， 适 用 于 非常 大 的 数据 集 ， 也 适用 于 高 维 数据 。 
朴素 贝 叶 斯 


只 适用 于 分 类 问题 。 比 线性 模型 速度 还 快 ， 适 用 于 非常 大 的 数据 集 和 高 维 数据 。 精 度 通 
常 要 低 于 线性 模型 。 

决策 树 

速度 很 快 ， 不 需要 数据 缩放 ， 可 以 可 视 化 ， 很 容易 解释 。 

随机 森林 

几乎 总 是 比 单 棵 决策 树 的 表现 要 好 ， 鲁 棒 性 很 好 ， 非 常 强 大 。 不 需要 数据 缩放 。 不 适用 
于 高 维 稀 足 数据 。 

梯度 提升 决策 树 
精度 通常 比 随机 森林 略 高 。 与 随机 森林 相 比 ， 训 练 速度 更 慢 ， 但 预测 速度 更 快 ， 需 要 的 
内 存 也 更 少 。 比 随机 森林 需要 更 多 的 参数 调 市 。 





支持 向 量 机 
对 于 特征 含义 相似 的 中 等 大 小 的 数据 集 很 强大 。 需 要 数据 缩放 ， 对 参数 敏感 。 
神经 网 络 





可 以 构建 非常 复杂 的 模型 ， 特 别 是 对 于 大 型 数据 集 而 言 。 对 数据 缩放 敏感 ， 对 参数 选取 
敏感 。 大 型 网 络 需 要 很 长 的 训练 时 间 。 
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面 对 新 数据 集 ， 通 常 最 好 先 从 简单 模型 开始 ， 比 如 线性 模型 、 朴 素 贝 叶 斯 或 最 近邻 分 类 
器 ， 看 能 得 到 什么 样 的 结果 。 对 数据 有 了 进一步 了 解 之 后 ， 你 可 以 考虑 用 于 构建 更 复杂 模 
型 的 算法 ， 比 如 随机 和 森林、 梯度 提升 决策 树 、SVM 或 神经 网 络 。 


现在 你 应 该 对 如 何 应 用 、 调 节 和 分 析 我 们 介绍 过 的 模型 有 了 一 定 的 了 解 。 本 章 主要 介绍 了 
二 分 类 问题 ， 因 为 这 通常 是 最 容易 理解 的 。 不 过 本 章 大 多 数 算法 都 可 以 同时 用 于 分 类 和 回 
归 ， 而 且 所 有 分 类 算法 都 可 以 同时 用 于 二 分 类 和 多 分 类 。 你 可 以 尝试 将 这 些 算法 应 用 于 
scikit-learn 的 内 置 数据 集 ， 比 如 用 于 回归 的 boston_housing 或 diabetes 数据 集 ， 或 者 用 
于 多 分 类 的 digits 数据 集 。 在 不 同 的 数据 集 上 实验 这 些 算法 ， 可 以 让 你 更 好 地 感受 它们 所 
需 的 训练 时 间 、 分 析 模 型 的 难 易 程 度 以 及 它们 对 数据 表示 的 敏感 程度 。 


虽然 我 们 分 析 了 不 同 的 参数 设 定 对 算法 的 影响 ， 但 在 生产 环境 中 实际 构建 一 个 对 新 数据 泛 
化 性 能 很 好 的 模型 要 更 复杂 一 些 。 我 们 将 在 第 6 章 介绍 正确 调 参 的 方法 和 自动 寻找 最 佳 参 
数 的 方法 。 


不 过 首先 ， 我 们 将 在 下 一 章 深 入 讨论 无 监督 学 习 和 预 处 理 。 









































第 3 章 





无 监督 学 习 与 预 处 理 


我 们 要 讨论 的 第 三 种 机 器 学 习 算法 是 无 监督 学 习 算法 。 无 监督 学 习 包 括 没有 已 知 输出 、 没 


有 老师 指导 学 习 算 法 的 各 种 机 器 学 习 。 在 无 监督 学 习 中 ， 学 习 算 法 


从 这 些 数 据 中 提取 知识 。 





3.1 无 监督 学 习 的 类 型 
本 章 将 研究 两 种 类 型 的 无 监督 学 习 : 数据 集 变换 与 聚 类 。 
数据 集 的 无 监督 变换 (unsupervised transformation) 是 创建 数据 新 的 表示 的 算法 ， 与 数据 的 

















只 有 输入 数据 ， 并 需要 





原始 表示 相 比 ， 新 的 表示 可 能 更 容易 被 人 或 其 他 机 器 学 习 算 法 所 理解 。 无 监督 变换 的 一 个 





常见 应 用 是 降 维 (dimensionality reduction) ， 它 接受 包含 许多 特征 的 数据 的 高 维 表示 ， 并 














找到 表示 该 数据 的 一 种 新 方法 ， 用 较 少 的 特征 就 可 以 概括 其 重要 特性 。 降 维 的 一 个 常见 应 





用 是 为 了 可 视 化 将 数据 降 为 二 维 。 





无 监督 变换 的 另 一 个 应 用 是 找到 “构成 ”数据 的 各 个 组 成 部 分 。 这 方 男 











i 的 一 个 例子 就 是 对 





文本 文档 集合 进行 主题 提取 。 这 里 的 任务 是 找到 每 个 文档 中 讨论 的 未 知 主题 ， 并 学 习 每 个 





文档 中 出 现 了 哪些 主题 。 这 可 以 用 于 追踪 神 
流行 歌手 等 话题 。 





F 交 媒体 上 的 话题 讨论 ， 比 女 





01 选举、 枪支 管制 或 





与 之 相反 ， 聚 类 算法 (clustering algorithm) 将 数据 划分 成 不 同 的 组 ， 每 组 包含 相似 的 物 
为 了 方便 你 整理 照片 ， 网 站 可 能 想 要 将 同一 个 
人 的 照片 分 在 一 组 。 但 网 站 并 不 知道 每 张 照 片 是 谁 ， 也 不 知道 你 的 照片 集中 出 现 了 多 少 个 
人 。 明 智 的 做 法 是 提取 所 有 的 人 脸 ， 并 将 看 起 来 相似 的 人 脸 分 在 一 组 。 但 愿 这 些 人 脸 对 应 


项 。 思考 向 社交 媒体 网 站 上 传 照 片 的 例子 。 








同一 个 人 ， 这 样 图 片 的 分 组 也 就 完成 了 。 
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3.2 无 监督 学 习 的 挑战 


无 监督 学 习 的 一 个 主要 挑战 就 是 评估 算法 是 否 学 到 了 有 用 的 东西 。 无 监督 学 习 算 法 一 般 用 
于 不 包含 任何 标签 信息 的 数据 ， 所 以 我 们 不 知道 正确 的 输出 应 该 是 什么 。 因 此 很 难 判 断 一 
个 模型 是 否 “ 表 现 很 好 ”。 例 如 ， 假 设 我 们 的 聚 类 算法 已 经 将 所 有 的 侧 脸 照片 和 所 有 的 正 
面 照片 进行 分 组 。 这 肯定 是 人 脸 照 片 集合 的 一 种 可 能 的 划分 方法 ， 但 并 不 是 我 们 想 要 的 那 
种 方法 。 然 而 ， 我 们 没有 办 法 “告诉 ”算法 我 们 要 的 是 什么 ， 通常 来 说 ， 评 估 无 监督 算法 
结果 的 唯一 方法 就 是 人 工 检查 。 

因此 ， 如 果 数 据 科 学 家 想 要 更 好 地 理解 数据 ， 那 么 无 监督 算法 通常 可 用 于 探索 性 的 目的 ， 
而 不 是 作为 大 型 自动 化 系统 的 一 部 分 。 无 监督 算法 的 另 一 个 常见 应 用 是 作为 监督 算法 的 预 
处 理 步 又 。 学 习 数据 的 一 种 新 表示 ， 有 时 可 以 提高 监督 算法 的 精度 ， 或 者 可 以 减少 内 存 占 
用 和 时 间 开 销 。 

在 开始 学 习 “ 真 正 的 ”无 监督 算法 之 前 ， 我 们 先 简 要 讨论 几 种 简单 又 常用 的 预 处 理 方法 。 
虽然 预 处 理 和 缩放 通常 与 监督 学 习 算 法 一 起 使 用 ， 但 缩放 方法 并 没有 用 到 与 “监督 ”有 关 
的 信息 ， 所 以 它 是 无 监督 的 。 


3.3” 预 处 理 与 缩放 


上 一 章 我 们 学 到 ， 一 些 算法 (如 神经 网 络 和 SVM) 对 数据 缩放 非常 敏感 。 因 此 ， 通 常 的 
做 法 是 对 特征 进行 调节 ， 使 数据 表示 更 适合 于 这 些 算法 。 通 常 来 说 ， 这 是 对 数据 的 一 种 简 
单 的 按 特征 的 缩放 和 移动 。 下 面 的 代码 (图 3-1) 给 出 了 一 个 简单 的 例子 : 
In[2]: 

mglearn.plots.plot_scaling() 
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图 3-1: 对 数据 集 缩放 和 预 处 理 的 各 种 方法 
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3.3.1 不 同类 型 的 预 处 理 

在 图 3-1 中 ， 第 一 张 图 显示 的 是 一 个 模拟 的 有 两 个 特征 的 二 分 类 数据 集 。 第 一 个 特征 (x 
轴 ) 位 于 10 到 15 之 间 。 第 二 个 特征 (y 轴 ) 大 约 位 于 1 到 9 之 间 。 

接 下 来 的 4 张 图 展示 了 4 种 数据 变换 方法 ， 都 生成 了 更 加 标准 的 范围 。scikit-learn 中 
的 standardscaler 确保 每 个 特征 的 平均 值 为 0、 方 差 为 1， 使 所 有 特征 都 位 于 同一 量 
级 。 但 这 种 缩放 不 能 保证 特征 任何 特定 的 最 大 值 和 最 小 值 。Robustscater 的 工作 原理 与 








StandardScaler 类 似 ， 
是 中 位 数 和 四 分 位 数 ， 





























确保 每 个 特征 的 统计 属性 都 位 于 同一 范围 。 但 Robustscaler 使 用 的 
, 而 不 是 平均 值 和 方差 。 这 样 RobustScater 会 忽略 与 其 他 点 有 很 大 不 





























同 的 数据 点 (比如 测量 误差 )。 这 些 与 众 不 同 的 数据 点 也 叫 异 常 值 (outlier) ， 可 能 会 给 其 


他 缩放 方法 造成 麻烦 。 


与 之 相反 ，MinMaxScaler 移动 数据 ， 使 所 有 特征 都 刚好 位 于 0 到 1 之 间 。 对 于 二 维 数据 集 
来 说 ， 所 有 的 数据 都 包含 在 x 轴 0 到 1 与 y 轴 0 到 1 组 成 的 矩形 中 。 


最 后 ，Normalizer 用 至 
量 的 欧式 长 度 等 于 1。 





1 一 种 完全 不 同 的 缩放 方法 。 它 对 每 个 数据 点 进行 缩放 ， 使 得 特征 向 
换 句 话说 ， 它 将 一 个 数据 点 投射 到 半径 为 1 的 圆 上 (对 于 更 高 维度 




















的 情况 ， 是 球面 )。 这 














酒 


意味 着 每 个 数据 点 的 缩放 比例 都 不 相同 〈 乘 以 其 长 度 的 倒数 )。 如 


只 有 数据 的 方向 (或 角度 ) 是 重要 的 ， 而 特征 向 量 的 长 度 无 关 紧 要 ， 那 么 通常 会 使 用 这 种 


归 寺 化 。 





3.3.2 ”应 用 数据 变换 


前 面 我 们 已 经 看 到 不 同类 型 的 变换 的 作用 ， 下 面 利用 scikit-learn 来 应 用 这 些 变 换 。 我 们 
将 使 用 第 2 章 见 过 的 cancer 数据 集 。 通 常 在 应 用 监督 学 习 算 法 之 前 使 用 预 处 理 方 法 ( 比 














如 缩放 )。 举 个 例子 ， 
MinMaxScaler 来 预 处 到 




















比如 我 们 想 要 将 核 SVM (svc) 应 用 在 cancer 数据 集 上 ， 并 使 用 
EE 数据。 首先 加 载 数据 集 并 将 其 分 为 训练 集 和 测试 集 (我 们 需要 分 开 

















的 训练 集 和 数据 集 来 对 预 处 理 后 构建 的 监督 模型 进行 评估 ) : 


In[3]: 





from sklearn.datasets import load_breast_ cancer 
from sklearn.model_selection import train test_split 
cancer = load_breast cancer() 


X_train, X_test, y_train, y_test = train test split(cancer.data, cancer.target, 


random_state=1) 


print(X_train.shape) 
print(X_test.shape) 


Out[3]: 
(426, 30) 
(143, 30) 





注 1: 对 于 一 组 数字 来 说 ， 





中 位 数 指 的 是 这 样 的 数值 x*， 有 一 半数 值 小 于 x， 另 一 半数 值 大 于 x。 较 小 四 分 




















位 数 指 的 是 这 样 的 数值 x， 有 四 分 之 一 的 数值 小 于 x。 较 大 四 分 位 数 指 的 是 这 样 的 数值 x， 有 四 分 之 





一 的 数值 大 于 x。 
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提醒 一 下 ， 这 个 数据 集 包 含 569 个 数据 点 ， 每 个 数据 点 由 30 个 测量 值 表示 。 我 们 将 数据 


集 分 成 包含 426 个 样本 的 





与 之 前 构建 的 监督 模型 一 


In[4] : 








from sklearn.preprocessing import MinMaxScaler 


scaler = MinMaxScaler 


() 





| 练 集 与 包含 143 个 样本 的 测试 集 。 
FE， 我 们 首先 导入 实现 预 处 理 的 类 ， 然 后 将 其 实例 化 : 





然后 ， 使 用 fit 方法 拟 合 缩放 器 (scaler)， 并 将 其 应 用 于 训练 数据 。 对 于 MinMaxScaler 来 


说 ,fit 方 法 计算 训练 集中 每 个 特征 的 最 大 值 和 最 小 值 。 与 第 2 章 中 的 分 类 器 和 回归 


























(regressor) 不 同 ， 在 对 缩放 器 调用 fit 时 只 提供 了 X_train， 而 不 用 y_traiin: 


In[5]: 
scaler.fit(X_train) 


Out[5]: 
MinMaxScaler(copy=Tru 


e, feature_range=(0, 1)) 


Dm 


1 





为 了 应 用 刚刚 学 习 的 变换 〈 即 对 训练 数据 进行 实际 缩放 ) ， 我 们 使 用 缩放 器 的 transform 


方法 。 在 scikit-learn 中 
方法 : 


In[6]: 
# 变换 数据 


X_train_scaled = scal 








# 在 缩放 之 前 和 之 后 分 别 打 印 数据 集 属 性 
shape: {}".format(X_train_scaled.shape)) 
minimum before scaling:\n {}".format(X_train.min(axis=0))) 
maximum before scaling:\n {}".format(X_train.max(axis=0))) 
minimum after scaling:\n {}".format( 


print("transformed 
print("per-feature 
print("per-feature 
print("per-feature 
Xx_train_scaled. 
print("per-feature 
Xx_train_scaled. 


mi 
ma 


Out[6] : 
transformed shape: (4 
per-feature minimum b 


[ 6.98 9 71 4 

0.05 0.12 
0.01 0 
0 0.16 

per-feature maximum b 

[ 28.11 39.28 
0.300 0.100 
0.400 0.050 
0.220 0.940 


per-feature minimum a 
[0. 0. 0. 0. 0. 
90. ‘Oz. 03 .0 5 
per-feature maximum a 
[ST ,rd hs 
Le Ls ds ole 


， 每 当 模型 返 





er.transform(X_train) 





n(axis=0))) 


x(axis=0))) 


26, 30) 
efore scaling: 


回 数据 的 一 种 新 表示 时 ， 都 可 以 使 月 





maximum after scaling:\n {}".format( 


3.79 143.50 0.05 0.02 0. Qs 0.11 

0.36 0.76 6.80 0 0. 0. 0. 

£93 12.02 50.41 185.20 0.07 0.03 0. 

0.06] 

efore scaling: 

188.5 2501.0 0.16 0.29 0.43 0.2 
2.87 4.88 21.98 542.20 0.03 0.14 
0.06 0.03 36.04 49 .54 251.20 4254.00 
1.17 0.29 0.58 0.15] 

fter scaling: 

0 0 “0 Os (0 0 Oi “Oa 00 0 0. 0 0 
0. 0. 0. 0. 0. 0. 0.] 

fter scaling: 

le Ts vy i TT Ls 1 1 1 
1 ds A i i i 


H transform 
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变换 后 的 数据 形状 与 原始 数据 相同 ， 特 征 只 是 发 生 了 移动 和 缩放 。 你 可 以 看 到 ， 现 在 所 有 
特征 都 位 于 0 到 1 之 间 ， 这 也 符合 我 们 的 预期 。 


为 了 将 SVM 应 用 到 缩放 后 的 数据 上 ， 还 需要 对 测试 集 进行 变换 。 这 可 以 通过 对 X_test 调 
用 transforn 方法 来 完成 : 


In[7]: 
# 对 测试 数据 进行 变换 
X_test_scaled = scaler.transform(X_test) 
# 在 缩放 之 后 打印 测试 数据 的 属性 
print("per-feature minimum after scaling:\n{}".format(X_test_scaled.min(axis=0))) 
print("per-feature maximum after scaling:\n{}".format(X_test_scaled.max(axis=0))) 














Out[7]: 
per-feature minimum after scaling: 
[ 0.034 0.023 0.031 0.011 0.141 0.044 0. 0. 0.154 -0.006 
-0.001 0.006 0.004 0.001 0.039 0.011 0. 0. -0.032 0.007 
0.027 0.058 0.02 0.009 0.109 0.026 0. 0- -0 -0.002] 


per-feature maximum after scaling: 

[ 0.958 0.815 0.956 0.894 0.811 1.22 0.88 0.933 0.932 1.037 
0.427 0.498 0.441 0.284 0.487 0.739 0.767 0.629 1.337 0.391 
0.896 0.793 0.849 0.745 0.915 1.132 1.07 0.924 1.205 1.631] 





你 可 以 发 现 ， 对 测试 集 缩放 后 的 最 大 值 和 最 小 值 不 是 1 和 0， 这 或 许 有 些 出 乎 意料 。 有 些 
特征 甚至 在 0~l 的 范围 之 外 ! 对 此 的 解释 是 ，MinMaxScaler (以 及 其 他 所 有 缩放 器 ) 总 是 
对 训练 集 和 测试 集 应 用 完全 相同 的 变换 。 也 就 是 说 ，transform 方法 总 是 减 去 训练 集 的 最 
小 值 ， 然 后 除 以 训练 集 的 范围 ， 而 这 两 个 值 可 能 与 测试 集 的 最 小 值 和 范围 并 不 相同 。 


3.3.3 ”对 训练 数据 和 测试 数据 进行 相同 的 缩放 
为 了 让 监督 模型 能 够 在 测试 集 上 运行 ， 对 训练 集 和 测试 集 应 用 完全 相同 的 变换 是 很 重要 
的 。 如 果 我 们 使 用 测试 集 的 最 小 值 和 范围 ， 下 面 这 个 例子 (图 3-2) 展示 了 会 发 生 什么 : 


In[8]: 
from sklearn.datasets import make_blobs 
# 构造 数据 
X, _ = make_blobs(n_samples=50, centers=5, random state=4, cluster_std=2) 
# 将 其 分 为 训练 集 和 测试 集 


X_train, X_test = train_test_split(X, random_state=5, test_size=.1) 









































ky 



























































# 绘制 训练 集 和 测试 集 

fig, axes = plt.subplots(1, 3, figsize=(13, 4)) 

axes[0].scatter(X_train[:, 0], Xx_train[:, 1], 
c=mglearn.cm2(0), label="Training set", s=60) 

axes[0].scatter(X_test[:, 0], X_test[:, 1], marker='^', 
c=mglearn.cm2(1), label="Test set", s=60) 

axes[0].Legend(Loc='upper left') 

axes[0].set title("Original Data") 








# 利用 MinMaxScaler 缩 放 数 据 


scaler = MinMaxScaler() 
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scaler .fit(X_train) 
X_train_scaled = scaler.transform(X_train) 
X_test_scaled = scaler.transform(X_test) 





# 将 正确 缩放 的 数据 可 视 化 

axes[1].scatter(X_train_scaled[:, 0], Xx_train_scaled[:, 1], 
c=mglearn.cm2(0), label="Training set", s=60) 

axes[1].scatter(X_test_scaled[:, 0], X_test_ scaled[:, 1], marker='^', 
c=mglearn.cm2(1), label="Test set", s=60) 

axes[1].set title("Scaled Data") 














# 单独 对 测试 集 进行 缩放 

# 使 得 测试 集 的 最 小 值 为 6， 最 大 值 为 1 

# 千 万 不 要 这 么 做 ! 这 里 只 是 为 了 举例 

test_scaler = MinMaxScaler() 
test_scaler.fit(X_test) 

X_test_scaled badly = test_scaler.transform(X_test) 























# 将 错误 缩放 的 数据 可 视 化 

axes[2].scatter(X_train_scaled[:, 0], Xx_train_scaled[:, 1], 
c=mglearn.cm2(0), label="training set", s=60) 

axes[2].scatter(X_test_scaled_badly[:, 0], Xx_test_scaled_badly[:, 1], 
marker='^', c=mglearn.cm2(1), label="test set", s=60) 

axes[2].set title("Improperly Scaled Data") 


for ax in axes: 
ax.set_xlabel("Feature 0") 
ax.set_ylabel("Feature 1") 






























































5 Original Data Scaled Data Improperly Scaled Data a 
@6@@ Training set 
AAA Test set © 1.0 上 @ 1.0 @a 
s 有 ” 
o ® Vo | ® va” ® Vo” 
2 eeoeme 9 0.6 seemoe 多 0.6 eeeme . 
Es 。 . os e ee Eo oo eee | oo ee 
® 0.2 ® 0.2 ® 
bd © © 
-| 。。 多 oo 上 ei oo0 A $ 
"em -5 0 5 10 i5 "2000 07 0 06 08 10 12 07 00 07 0 06 08 10 12 
Feature 0 Feature 0 Feature 0 
3-2: 对 左 图 中 的 训练 数据 和 测试 数据 同时 缩放 的 效果 (中) 和 分 别 缩放 的 效果 ( 右 ) 
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第 一 张 图 是 未 缩放 的 二 维 数据 集 ， 甚 中 训练 集 用 圆 形 表示 ， 测 试 集 用 三 角形 表示 。 第 二 张 
图 中 是 同样 的 数据 ， 但 使 用 MinMaxScaler 缩放 。 这 里 我 们 调用 fit 作用 在 训练 集 上 ， 然 后 
调用 transform 作用 在 训练 集 和 测试 集 上 。 你 可 以 发 现 ， 第 二 张 图 中 的 数据 集 看 起 来 与 第 
一 张 图 中 的 完全 相同 ， 只 是 坐标 轴 刻 度 发 生 了 变化 。 现 在 所 有 特征 都 位 于 0 到 1 之 间 。 你 
还 可 以 发 现 ， 测 试 数据 (三 角形 ) 的 特征 最 大 值 和 最 小 值 并 不 是 1 和 0。 

第 三 张 图 展示 了 如 果 我 们 对 训练 集 和 测试 集 分 别 进行 缩放 会 发 生 什 么 。 在 这 种 情况 下 ， 对 
训练 集 和 测试 集 而 言 ， 特 征 的 最 大 值 和 最 小 值 都 是 1 和 0。 但 现在 数据 集 看 起 来 不 一 样 。 
测试 集 相 对 训练 集 的 移动 不 一 致 ， 因 为 它们 分 别 做 了 不 同 的 缩放 。 我 们 随意 改变 了 数据 的 
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排列 。 这 显然 不 是 我 们 想 要 做 的 事 ; 


再 换 一 种 思考 方式 ， 想 象 你 的 测试 集 只 有 一 个 点 。 对 于 一 个 点 而 言 ， 无 法 将 其 正确 地 缩放 以 满 
足 MinMaxScaler 的 最 大 值 和 最 小 值 的 要 求 。 但 是 ， 测 试 集 的 大 小 不 应 该 对 你 的 处 理 方 式 有 影响 。 





[ 老 
月 。 















































快捷 方式 与 高 效 的 替代 方法 
通常 来 说 ， 你 想 要 在 某 个 数据 集 上 fit 一 个 模型 ， 然 后 再 将 其 transform。 这 是 一 个 非 
常常 见 的 任务 ， 通 常 可 以 用 比 先 调用 fit 再 调用 transform 更 高 效 的 方法 来 计算 。 对 
于 这 种 使 用 场景 ， 所 有 具有 transform 方法 的 模型 也 都 具有 一 个 fit_transform 方法 。 
下 面 是 使 用 StandardScaler 的 一 个 例子 : 


In[9]: 
from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() 
# 依次 调用 fit 和 transform (使 用 方法 链 ) 
X_scaled = scaler.fit(X).transform(X) 
# 结果 相同 ， 但 计算 更 加 高 效 


X_scaled d = scaler.fit transform(X) 














虽然 fit_transform 不 一 定 对 所 有 模型 都 更 加 高 效 ， 但 在 尝试 变换 训练 集 时 ， 使 用 这 
一 方法 仍然 是 很 好 的 做 法 。 











3.3.4” 预 处 理 对 监督 学 习 的 作用 


现在 我 们 回 到 cancer 数据 集 ， 观 罕 使 用 MinMaxScaler 对 学 习 SVC 的 作用 (这 是 一 种 不 同 的 
方法 ， 实 现 了 与 第 2 章 中 相同 的 缩放 )。 首 先 ， 为 了 对 比 ， 我 们 再 次 在 原始 数据 上 拟 合 SVC: 


In[10] : 
from sklearn.svm import SVC 























X_train, X_test, y_train, y_test = train test_ split(cancer.data, cancer.target, 
random_state=0) 


svm = SVC(C=100) 
svm.fit(X_train, y_train) 
print("Test set accuracy: {:.2f}".format(svm.score(X_test, y_test))) 


Out[10] : 
Test set accuracy: 0.63 


下 面 先 用 MinMaxScaler 对 数据 进行 缩放 ， 然 后 再 拟 合 SVC: 


In[11] : 
# 使 用 0-1 缩 放 进行 预 处 理 
scaler = MinMaxScaler() 
scaler .fit(X_train) 
X_train_scaled = scaler.transform(X_train) 
X_test_scaled = scaler.transform(X_test) 









































# 在 缩放 后 的 训练 数据 上 学 习 SVM 


svm.fit(X_train_scaled, y_train) 


# 在 缩放 后 的 测试 集 上 计算 分 数 
print("Scaled test set accuracy: {:.2f}".format( 
svm.score(X_test_scaled, y_test))) 





Out[11] : 
Scaled test set acCuracy: 0.97 


正如 我 们 上 面 所 见 ， 数 据 缩放 的 作用 非常 显著 。 虽 然 数据 缩 放 不 涉及 任何 复杂 的 数学 ， 但 
良好 的 做 法 仍然 是 使 用 scikit-Learn 提供 的 缩放 机 制 ， 而 不 是 自己 重新 实现 它们 ， 因 为 即 
使 在 这 些 简单 的 计算 中 也 容易 犯错 。 


你 也 可 以 通过 改变 使 用 的 类 将 一 种 预 处 理 算 法 轻松 替换 成 另 一 种 ， 因 为 所 有 的 预 处 理 类 都 
具有 相同 的 接口 ， 都 包含 fit 和 transform 方法 : 


In[12]: 
# 利用 零 均值 和 单位 方差 的 缩放 方法 进行 预 处 理 
from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() 
scaler .fit(X_train) 
X_train_scaled = scaler.transform(X_train) 
X_test_scaled = scaler.transform(X_test) 


# 在 缩放 后 的 训练 数据 上 学 习 SVM 


svm.fit(X_train_scaled, y_train) 


# 在 缩放 后 的 测试 集 上 计算 分 数 


print("SVM test accuracy: {:.2f}".format(svm.score(X_test_scaled, y_test))) 









































Out[12] : 
SVM test accuracy: 0.96 


前 面 我 们 已 经 看 到 了 用 于 预 处 理 的 简单 数据 变换 的 工作 原理 ， 下 面 继续 学 习 利用 无 监督 学 
习 进 行 更 有 趣 的 变换 。 


+ Z :六 开 ] 忆 

3.4 降 维 、 特 征 提取 与 流 形 学 习 

前 面 讨 论 过 ， 利 用 无 监督 学 习 进 行 数 据 变换 可 能 有 很 多 种 目的 。 最 常见 的 目的 就 是 可 视 
化 、 压 缩 数 据 ， 以 及 寻找 信息 量 更 大 的 数据 表示 以 用 于 进一步 的 处 理 。 


为 了 实现 这 些 目的 ， 最 简单 也 最 常用 的 一 种 算法 就 是 主 成 分 分 析 。 我 们 也 将 学 习 另 外 两 种 
算法 : 非 负 和 矩阵 分 解 “NMF) 和 tSNE， 前 者 通常 用 于 特征 提取 ， 后 者 通常 用 于 二 维 散 点 
图 的 可 视 化 。 


3.4.1 主 成 分 分 析 


主 成 分 分 析 (principal component analysis，PCA) 是 一 种 旋转 数据 集 的 方法 ， 旋 转 后 的 特 
征 在 统计 上 不 相关 。 在 做 完 这 种 旋转 之 后 ， 通 常 是 根据 新 特征 对 解释 数据 的 重要 性 来 选择 
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它 的 一 个 子 集 。 下 面 的 例子 (图 3-3) 展示 了 PCA 对 一 个 模拟 二 维 数据 集 的 作用 : 


In[13] : 
mgLearn.pLots.pLot_pca_iLLLustration() 
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图 3-3: 用 PCA 做 数据 变换 





第 一 张 图 (左上 ) 显示 的 是 原始 数据 点 ， 用 不 同 颜色 加 以 区 分 。 算 法 首先 找到 方差 最 大 的 
方向 ， 将 其 标记 为 “成 分 1”(Component 1) 。 这 是 数据 中 包含 最 多 信息 的 方向 (或 向 量 )， 
换 名 话说 ， 沿 着 这 个 方向 的 特征 之 间 最 为 相关 。 然 后 ， 算 法 找到 与 第 一 个 方向 正 交 (成 直 
角 ) 且 包 含 最 多 信息 的 方向 。 在 二 维 空间 中 ， 只 有 一 个 成 直角 的 方向 ， 但 在 更 高 维 的 空间 
中 会 有 (无 穷 ) 多 的 正 交 方 向 。 虽 然 这 两 个 成 分 都 画 成 箭头 ， 但 其 头 尾 的 位 置 并 不 重要 。 
我 们 也 可 以 将 第 一 个 成 分 画 成 从 中 心 指向 左上 ， 而 不 是 指向 右 下 。 利 用 这 一 过 程 找 到 的 方 
向 被 称 为 主 成 分 (principal component) ， 因 为 它们 是 数据 方差 的 主要 方向 。 一 般 来 说 ， 主 
成 分 的 个 数 与 原始 特征 相同 。 









































A 
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第 二 张 图 (右上 ) 显示 的 是 同样 的 数据 ， 但 现在 将 其 旋转 ， 使 得 第 一 主 成 分 与 x 轴 平 行 且 
第 二 主 成 分 与 y 轴 平 行 。 在 旋转 之 前 ， 从 数据 中 减 去 平均 值 ， 使 得 变换 后 的 数据 以 零 为 中 
心 。 在 PCA 找到 的 旋转 表示 中 ， 两 个 坐标 轴 是 不 相关 的 ， 也 就 是 说 ， 对 于 这 种 数据 表示 ， 
除了 对 角 线 ， 相 关 算 阵 全 部 为 零 。 

我 们 可 以 通过 仅 保留 一 部 分 主 成 分 来 使 用 PCA 进行 降 维 。 在 这 个 例子 中 ， 我 们 可 以 仅 保 
留 第 一 个 主 成 分 ， 正 如 图 3-3 中 第 三 张 图 所 示 (左下 )。 这 将 数据 从 二 维 数据 集 降 为 一 维 数 
据 集 。 但 要 注意 ， 我 们 没有 保留 原始 特征 之 一 ， 而 是 找到 了 最 有 趣 的 方向 (第 一 张 图 中 从 
左上 到 右 下 ) 并 保留 这 一 方向 ， 即 第 一 主 成 分 。 
最 后 ， 我 们 可 以 反 向 旋转 并 将 平均 值 重 新 加 到 数据 中 。 这 样 会 得 到 图 3-3 最 后 一 张 图 中 的 
数据 。 这 些 数据 点 位 于 原始 特征 空间 中 ， 但 我 们 仅 保留 了 第 一 主 成 分 中 包含 的 信息 。 这 种 
变换 有 时 用 于 去 除数 据 中 的 噪声 影响 ， 或 者 将 主 成 分 中 保留 的 那 部 分 信息 可 视 化 。 

1. 将 PCA 应 用 于 cancer 数据 集 并 可 视 化 

PCA 最 常见 的 应 用 之 一 就 是 将 高 维 数据 集 可 视 化 。 正 如 第 1 章 中 所 说 ， 对 于 有 两 个 以 上 特 
征 的 数据 ， 很 难 绘制 散 点 图 。 对 于 Fis 〈 蔓 尾 花 ) 数据 集 ， 我 们 可 以 创建 散 点 图 矩阵 ( 见 
第 1 章 图 1-3)， 通 过 展示 特征 所 有 可 能 的 两 两 组 合 来 展示 数据 的 局 部 图 像 。 但 如 果 我 们 想 
要 查看 乳腺 癌 数 据 集 ， 即 便 用 散 点 图 矩阵 也 很 困难 。 这 个 数据 集 包含 30 个 特征 ， 这 就 导 
致 需要 绘制 30 * 14 = 420 张 散 点 图 ! 我 们 永远 不 可 能 仔细 观察 所 有 这 些 图 像 ， 更 不 用 说 试 
图 理解 它们 了 。 


不 过 我 们 可 以 使 用 一 种 更 简单 的 可 视 化 方法 一 一 对 每 个 特征 分 别 计算 两 个 类 别 〈 良 性 肿瘤 
和 恶性 肿瘤 ) 的 直方 图 ( 见 图 3-4)。 



































































































































In[14] : 
fig, axes = plt.subplots(15, 2, figsize=(10, 20)) 
malignant = cancer.data[cancer.target == 0] 
benign = cancer.data[cancer.target == 1] 


ax = axes.ravel() 


for i in range(30): 
_, bins = np.histogram(cancer.data[:, i], bins=50) 
ax[i].hist(malignant[:, i], bins=bins, color=mglearn.cm3(0), alpha=.5) 
ax[i].hist(benign[:, i], bins=bins, color=mglearn.cm3(2), alpha=.5) 
ax[i].set title(cancer.feature_names[i]) 
ax[i].set yticks(()) 

ax[0].set_xlabel("Feature magnitude") 

ax[0].set_ylabel("Frequency") 

ax[0].Llegend(["malignant", "benign"], loc="best") 

fig.tight_ layout() 
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3-4: 乳腺 癌 数 据 集中 每 个 类 别 的 特征 直方 

















这 里 我 们 为 每 个 特征 创建 一 个 直方 图 ， 计 算 具 有 某 一 特征 的 数据 点 在 特定 范围 内 〈 叫 作 
bin) 的 出 现 频率 。 每 张 图 都 包含 两 个 直方 图 ， 一 个 是 良性 类 别 的 所 有 点 ( 蓝 色 )， 一 个 是 
恶性 类 别 的 所 有 点 〈 红 色 )。 这 样 我 们 可 以 了 解 每 个 特征 在 两 个 类 别 中 的 分 布 情况 ， 也 可 
以 猜测 哪些 特征 能 够 更 好 地 区 分 良性 样本 和 恶性 样本 。 例 如 , “smoothness error” 特 征 似乎 
没有 什么 信息 量 ， 因 为 两 个 直方 图 大 部 分 都 重 亚 在 一 起 ， 而 “worst concave points” 特 征 
看 起 来 信息 量 相当 大 ， 因 为 两 个 直方 图 的 交集 很 小 。 

但 是 ， 这 种 图 无 法 向 我 们 展示 变量 之 间 的 相互 作用 以 及 这 种 相互 作用 与 类 别 之 间 的 关系 。 
利用 PCA， 我 们 可 以 获取 到 主要 的 相互 作用 ， 并 得 到 稍为 完整 的 图 像 。 我 们 可 以 找到 前 两 
个 主 成 分 ， 并 在 这 个 新 的 二 维 空间 中 用 散 点 图 将 数据 可 视 化 。 

在 应 用 PCA 之前， 我 们 利用 Standardscaler 缩放 数据 ， 使 每 个 特征 的 方差 均 为 1: 
In[15] : 


from sklearn.datasets import Load_breast_cancer 
cancer = Load_breast_cancer() 



















































































scaler = StandardScaler() 
scaler.fit(cancer .data) 
X_scaled = scaler.transform(cancer .data) 


学 习 并 应 用 PCA 变换 与 应 用 预 处 理 变换 一 样 简 单 。 我 们 将 PCA 对 象 实例 化 ， 调 用 fit 方 
法 找到 主 成 分 ， 然 后 调用 transform 来 旋转 并 降 维 。 默 认 情 况 下 ，PCA 仅 旋转 〈 并 移动 ) 
数据 ， 但 保留 所 有 的 主 成 分 。 为 了 降低 数据 的 维度 ， 我 们 需要 在 创建 PCA 对 象 时 指定 想 要 
保留 的 主 成 分 个 数 : 


In[16]: 
from sklearn.decomposition import PCA 
# 保留 数据 的 前 两 个 主 成 分 
pca = PCA(n_components=2) 
# 对 乳腺 癌 数 据 拟 合 PCA 模 型 
pca.fit(X_scaled) 


# 将 数据 变换 到 前 两 个 主 成 分 的 方向 上 

X_pca = pca.transform(X_scaled) 

print("Original shape: {}".format(str(X_scaled.shape))) 
print("Reduced shape: {}".format(str(X_pca.shape))) 














Out[16] : 
Original shape: (569, 30) 
Reduced shape: (569, 2) 


现在 我 们 可 以 对 前 两 个 主 成 分 作 图 (图 3-5) : 


In[17]: 
# 对 第 一 个 和 第 二 个 主 成 分 作 图 ， 按 类 别 着 色 
plt.figure(figsize=(8, 8)) 
mglearn.discrete scatter(X_pca[:, 0], X_pca[:, 1], cancer.target) 
plt.legend(cancer .target_ names, loc="best") 
plt.gca().set aspect("equal") 
plt.xlabel("First principal component") 
plt.ylabel("Second principal component") 
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图 3-5: 利用 前 两 个 主 成 分 绘制 乳腺 癌 数 据 集 的 二 维 散 点 图 


重要 的 是 要 注意 ，PCA 是 一 种 无 监督 方法 ， 在 寻找 旋转 方向 时 没有 用 到 任何 类 别 信息 。 它 
只 是 观察 数据 中 的 相关 性 。 对 于 这 里 所 示 的 散 点 图 ， 我 们 绘制 了 第 一 主 成 分 与 第 二 主 成 分 
的 关系 ， 然 后 利用 类 别 信息 对 数据 点 进行 着 色 。 你 可 以 看 到 ， 在 这 个 二 维 空间 中 两 个 类 别 
被 很 好 地 分 离 。 这 让 我 们 相信 ， 即 使 是 线性 分 类 器 (在 这 个 空间 中 学 习 一 条 直线 ) 也 可 以 
在 区 分 这 个 两 个 类 别 时 表现 得 相当 不 错 。 我 们 还 可 以 看 到 ， 亚 性 点 比 良性 点 更 加 分 散 ， 这 
一 点 也 可 以 在 图 3-4 的 直方 图 中 看 出 来 。 

PCA 的 一 个 缺点 在 于 ， 通 常 不 容易 对 图 中 的 两 个 轴 做 出 解释 。 主 成 分 对 应 于 原始 数据 中 的 
方向 ， 所 以 它们 是 原始 特征 的 组 合 。 但 这 些 组 合 往往 非常 复杂 ， 这 一 点 我 们 很 快 就 会 看 
到 。 在 拟 合 过 程 中 ， 主 成 分 被 保存 在 PCA 对 象 的 components_ 属性 中 : 


In[18] : 
print("PCA component shape: {}".format(pca.components_.shape)) 












































Out[18] : 
PCA _ component shape: (2，30) 


components_ 中 的 每 一 行 对 应 于 一 个 主 成 分 ， 它 们 按 重要 性 排序 (第 一 主 成 分 排 在 首位 ， 
以 此 类 推 )。 列 对 应 于 PCA 的 原始 特征 属性 ， 在 本 例 中 即 为 “mean radius”“mean texture” 
等 。 我 们 来 看 一 下 components_ 的 内 容 : 


In[19] : 
print("PCA components:N\n{t}" .format(pca.Components_)) 
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Out[19] : 
PCA components : 
[[ 0.219 0.104 0.228 0.221 0.143 0.239 0.258 0.261 0.138 0.064 
0.206 0.017 0.211 0.203 0.015 0.17 0.154 0.183 0.042 0.103 
0.228 0.104 0.237 0.225 0.128 0.21 0.229 0.251 0.123 0.132] 
[-0.234 -0.06 -0.215 -0.231 0.186 0.152 0.06 -0.035 0.19 0.367 
-0.106 0.09 -0.089 -0.152 0.204 0.233 0.197 0.13 0.184 0.28 
-0.22 -0.045 -0.2 -0.219 0.172 0.144 0.098 -0.008 0.142 0.275]] 


我 们 还 可 以 用 热 图 将 系数 可 视 化 (图 3-6)， 这 可 能 更 容易 理解 : 


In[20]: 
plt.matshow(pca.components_, cmap='viridis') 
plt.yticks([0, 1], ["First component", "Second component"]) 
plt.colorbar() 
plt.xticks(range(len(cancer.feature_names)), 
cancer .feature_names, rotation=60, ha='left') 
plt.xlabel("Feature") 
plt.ylabel("Principal components") 
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图 3-6: 乳腺 癌 数 据 集 前 两 个 主 成 分 的 热 图 


你 可 以 看 到 ， 在 第 一 个 主 成 分 中 ， 所 有 特征 的 符号 相同 〈( 均 为 正 ， 但 前 面 我 们 提 到 过 ， 箭 
头 指 向 哪个 方向 无 关 紧要 )。 这 意味 着 在 所 有 特征 之 间 存 在 普遍 的 相关 性 。 如 果 一 个 测量 
值 较 大 的 话 ， 其 他 的 测量 值 可 能 也 较 大 。 第 二 个 主 成 分 的 符号 有 正 有 人 负 ， 而 且 两 个 主 成 分 
都 包含 所 有 30 个 特征 。 这 种 所 有 特征 的 混合 使 得 解释 图 3-6 中 的 坐标 轴 变 得 十 分 困难 。 


2. 特征 提取 的 特征 脸 


前 面 提 到 过 ，PCA 的 另 一 个 应 用 是 特征 提取 。 特 征 提取 背后 的 思想 是 ， 可 以 找到 一 种 数据 
表示 ， 比 给 定 的 原始 表示 更 适合 于 分 析 。 特 征 提取 很 有 用 ， 它 的 一 个 很 好 的 应 用 实例 就 是 
图 像 。 图 像 由 像素 组 成 ， 通 常 存 储 为 红 绿 蓝 (RGB ) 强度 。 图 像 中 的 对 象 通 常 由 上 千 个 像 
素 组 成 ， 它 们 只 有 放 在 一 起 才 有 意义 。 

我 们 将 给 出 用 PCA 对 图 像 做 特征 提取 的 一 个 简单 应 用 ， 即 处 理 Wild 数据 集 Labeled Faces 
(标记 人 脸 ) 中 的 人 脸 图 像 。 这 一 数据 集 包含 从 互联 网 下 载 的 名 人 脸 部 图 像 ， 它 包含 从 21 
世纪 初 开始 的 政治 家 、 歌 手 、 演 员 和 运动 员 的 人 脸 图 像 。 我 们 使 用 这 些 图 像 的 灰 度 版 本 ， 
并 将 它们 按 比例 缩小 以 加 快 处 理 速度 。 你 可 以 在 图 3-7 中 看 到 其 中 一 些 图 像 : 

In[21]: 


from sklearn.datasets import fetch_lfw_people 
people = fetch_lfw_people(min_faces_per_person=20, resize=0.7) 
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image_shape = people.images[0].shape 


fix, axes = plt.subplots(2, 5, figsize=(15, 8), 
subplot_ kw={'xticks': (), 'yticks': ()}) 
for target, image, ax in zip(people.target, people.images, axes.ravel()): 
ax.imshow(image) 
ax.set_ title(people.target_names[target]) 





Carlos Menem 





Ariel Sharon Alvaro Uribe 









Colin Powell 


Gray Davis George Robertson Silvio Berlusconi 


包 国 司 


图 3-7: 来 自 Wild 数据 集中 Labeled Faces 的 一 些 图 像 


一 共有 3023 张 图 像 ， 每 张大 小 为 87 像素 x 65 像素 ， 分 别 属 于 62 个 不 同 的 人 : 


In[22] : 
print("people.images.shape: {}".format(people.images.shape)) 
print("Number of classes: {}".format(len(people.target names))) 


























Out[22]: 
people.images.shape: (3023, 87, 65) 
Number of classes: 62 


但 这 个 数据 集 有 些 偏 竹 ， 其 中 包含 George W. Bush (小 布什 和 Colin Powell ( 科 林 … 鲍 威 
尔 ) 的 大 量 图 像 ， 正 如 你 在 下 面 所 见 : 


In[23] : 
# 计算 每 个 目标 出 现 的 次 数 


counts = np.bincount(people.target) 
# 将 次 数 与 目标 名 称 一 起 打印 出 来 


for i, (count, name) in enumerate(zip(counts, people.target names)): 

















print("{0:25} {1:3}".format(name, count), end=" 有 
if (i + 1) % 3 == 0: 
print() 





Out[23] : 


ALejandro Toledo 
Amelie Mauresmo 
AngeLina Jolie 

Arnold Schwarzenegger 
Bill Clinton 

Colin Powell 

Donald Rumsfeld 
George W Bush 

Gloria Macapagal Arroyo 
Guillermo Coria 

Hans Blix 

Igor Ivanov 

Jacques Chirac 
Jennifer Aniston 
Jennifer Lopez 

Jiang Zemin 

John Negroponte 

Juan Carlos Ferrero 
Kofi. Annan 

Lindsay Davenport 
Luiz Inacio Lula da Silva 
Megawati Sukarnoputri. 
Naomi Watts 

Paul Bremer 

Recep Tayyip Erdogan 
Roh Moo-hyun 

Saddam Hussein 

Silvio Berlusconi 

Tom Daschle 

Tony Blair 

Vladimir Putin 


39 
20 
42 
29 
236 
121 
530 
44 
30 
39 
20 
52 
21 
六 
20 
31 
28 
32 
2 
48 
33 
22 
20 
30 
32 
3 
33 
25 
144 
49 


Alvaro Uribe 
Andre Agassi 
Ariel Sharon 

Atal Bihari Vajpayee 
Carlos Menem 
David Beckham 
George Robertson 
Gerhard Schroeder 
Gray Davis 

Hamid Karzai 

Hugo Chavez 

Jack Straw 

Jean Chretien 
Jennifer Capriati 
Jeremy Greenstock 
John Ashcroft 
Jose Maria Aznar 
Junichiro Koizumi 
Laura Bush 
Lleyton Hewitt 
Mahmoud Abbas 
Michael Bloomberg 
Nestor Kirchner 
Pete Sampras 
Ricardo Lagos 
Rudolph Giuliani 
Serena Williams 
Tiger Woods 

Tom Ridge 

Vicente Fox 
Winona Ryder 








为 了 降低 数据 偏 斜 ， 我 们 对 每 个 人 最 多 只 取 50 张 图 像 (否则 ， 


Bush 的 可 能 性 大 大 影响 ) : 
In[24] : 
mask = 





人 脸 识 别 的 一 

这 在 照片 收集 、 社 交 媒 体 和 安全 应 月 
分 类 器 

ee 

难 。 另 外 ,， 通 











np.zeros(people.target.shape, dtype=np.bool) 


for target in np.unique(people.target): 
mask[np.where(people.target == target)[0][:50]] = 


X_people = 
y_people = 


people.data[mask] 
people.target[mask] 


# 将 灰 度 值 缩放 到 6 到 1 之 间 ， 而 不 是 在 9 到 255 之 间 





# 以 得 到 更 好 的 数据 稳定 性 


X_people = X_people / 255. 


个 常见 任务 就 是 看 某 个 前 所 未 见 的 人 脸 是 
昌 中 都 有 应 用 。 解 决 这 个 问题 的 方法 之 一 
每 个 人 都 是 一 个 单独 的 类 别 。 但 人 脸 数据 库 中 通常 有 许多 不 同 的 人 ， 而 同一 个 人 
例 很 少 ) 。 这 使 得 大 多 数 分 类 器 的 训练 都 很 困 
常 你 还 想 要 能 够 轻松 添加 新 的 人 物 ， 不 需要 重新 训练 一 个 大 型 模型 。 











每 个 类 别 的 训练 








特征 





提取 将 会 


被 George W. 


否 属于 数据 库 中 的 某 个 已 知人 物 。 


就 是 构建 一 个 
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一 种 简单 的 解决 方法 是 使 用 单一 最 近邻 分 类 器 ， 寻 找 与 你 要 分 类 的 人 脸 最 为 相似 的 
人 脸 。 这 个 分 类 器 原则 上 可 以 处 理 每 个 类 别 只 有 一 个 训练 样 例 的 情况 。 下 面 看 一 下 
KNeighborsClassifier 的 表现 如 何 : 














In[25]: 
from sklearn.neighbors import KNeighborsClassifier 
# 将 数据 分 为 训练 集 和 测试 集 
X_train, X_test, y_train, y_test = train_test_spLit( 
X_people, y_people, stratify=y_people, random_state=0) 
# 使 用 一 个 邻居 构建 KNeighborsClassifier 
knn = KNeighborsClassifier(n_neighbors=1) 
knn.fit(X_train, y_train) 
print("Test set score of 1-nn: {:.2f}".format(knn.score(X_ test, y_test))) 

















Out[25] : 
Test set score of 1-nn: 0.27 


我 们 得 到 的 精度 为 26.6%。 对 于 包含 62 个 类 别 的 分 类 问题 来 说 ， 这 实际 上 不 算 太 差 (随机 
猿 测 的 精度 约 为 /62=1.5%)， 但 也 不 算 好 。 我 们 每 识别 四 次 仅 正确 识别 了 一 个 人 。 


这 里 就 可 以 用 到 PCA。 想 要 度量 人 脸 的 相似 度 ， 计 算 原 始 像 素 空 间 中 的 距离 是 一 种 相当 糟 
糕 的 方法 。 用 像素 表示 来 比较 两 张 图 像 时 ， 我 们 比较 的 是 每 个 像素 的 灰 度 值 与 另 一 张 图 像 
对 应 位 置 的 像素 灰 度 值 。 这 种 表示 与 人 们 对 人 脸 图 像 的 解释 方式 有 很 大 不 同 ， 使 用 这 种 原 
始 表示 很 难 获取 到 面部 特征 。 例 如 ， 如 果 使 用 像素 距离 ， 那 么 将 人 脸 向 右 移动 一 个 像素 将 
会 发 生 巨 大 的 变化 ， 得 到 一 个 完全 不 同 的 表示 。 我 们 希望 ， 使 用 沿 着 主 成 分 方向 的 距离 可 
以 提高 精度 。 这 里 我 们 启用 PCA 的 白化 (whitening) 选项 ， 它 将 主 成 分 缩放 到 相同 的 尺 
度 。 变 换 后 的 结果 与 使 用 StandardScater 相同 。 再 次 使 用 图 3-3 中 的 数据 ， 白 化 不 仅 对 应 
于 旋转 数据 ， 还 对 应 于 缩放 数据 使 其 形状 是 圆 形 而 不 是 椭圆 (参见 图 3-8) : 

In[26]: 

mglearn.plots.plot_pca_whitening() 









































Original data Whitened data 


feature 2 
Second principal component 
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图 3-8: 利用 启用 白化 的 PCA 进行 数据 变换 
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我 们 对 训练 数据 拟 合 PCA 对 象 ， 并 提取 前 100 个 主 成 分 。 然 后 对 训练 数据 和 测试 数据 进行 
变换 : 
In[27] : 

pca = PCA(n_components=100, whiten=True, random_state=0).fit(X_train) 


X_train_pca = pca.transform(X_train) 
X_test_pca = pca.transform(X_test) 





print("X_train_pca.shape: {}".format(X_train_pca.shape)) 


Out[27] : 
Xx_train_pca.shape: (1547, 100) 


新 数据 有 100 个 特征 ， 即 前 100 个 主 成 分 。 现 在 ， 可 以 对 新 表示 使 用 单一 最 近邻 分 类 器 来 
将 我 们 的 图 像 分 类 : 


In[28]: 
knn = KNeighborsClassifier(n_neighbors=1) 
knn.fit(X_train_pca, y_train) 
print("Test set accuracy: {:.2f}".format(knn.score(X_test pca, y_test))) 

















Out[28] : 

Test set acCuracy: 0.36 
我 们 的 精度 有 了 相当 显著 的 提高 ， 从 26.6% 提升 到 35.7%， 这 证 实 了 我 们 的 直觉 ， 即 主 成 
分 可 能 提供 了 一 种 更 好 的 数据 表示 。 
对 于 图 像 数 据 ， 我 们 还 可 以 很 容易 地 将 找到 的 主 成 分 可 视 化 。 请 记 住 ， 成 分 对 应 于 输入 空 
间 里 的 方向 。 这 里 的 输入 空间 是 87 像素 x 65 像素 的 灰 度 图 像 ， 所 以 在 这 个 空间 中 的 方向 
也 是 87 像素 x 65 像素 的 灰 度 图 像 。 
我 们 来 看 一 下 前 儿 个 主 成 分 (图 3-9) : 


In[29]: 
print("pca.components_.shape: {}".format(pca.components_.shape)) 








Out[29] : 
pca.components_.shape: (100, 5655) 


In[30]: 
fix, axes = plt.subplots(3, 5, figsize=(15, 12), 
subplot_kw={'xticks': (), 'yticks': ()}) 
for i, (component, ax) in enumerate(zip(pca.components_, axes.ravel())): 
ax.imshow(component.reshape(image_shape), 
cmap='viridis') 
ax.set title("{}. component".format((i + 1))) 
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1. component 2. component 3. component 4. component 5. component 
























6. component 7. component 


ee 


12. component 13. component 14. component 


固 回 加 


图 3-9: 人 脸 数据 集 前 15 个 主 成 分 的 成 分 向 量 


虽然 我 们 肯定 无 法 理解 这 些 成 分 的 所 有 中 容 ， 但 可 以 猜测 一 些 主 成 分 捕 提 到 了 人 脸 图 像 的 
哪些 方面 。 第 一 个 主 成 分 似乎 主要 编码 的 是 人 脸 与 背景 的 对 比 ， 第 二 个 主 成 分 编码 的 是 人 
脸 左 半 部 分 和 右 半 部 分 的 明暗 程度 差异 ， 如 此 等 等 。 虽 然 这 种 表示 比 原始 像素 值 的 语义 稍 
强 ， 但 它 仍 与 人 们 感知 人 脸 的 方式 相去 其 还。 由 于 PCA 模型 是 基于 像素 的 ， 因 此 人 脸 的 
相对 位 置 〈 眼 睛 、 下 巴 和 鼻子 的 位 置 ) 和 明暗 程度 都 对 两 张 图 像 在 像素 表示 中 的 相似 程度 
有 很 大 影响 。 但 人 脸 的 相对 位 置 和 明暗 程度 可 能 并 不 是 人 们 首先 感知 的 内 容 。 在 要 求人 们 
评价 人 脸 的 相似 度 时 ， 他 们 更 可 能 会 使 用 年 龄 、 性 别 、 面 部 表情 和 发 型 等 属性 ， 而 这 些 属 
性 很 难 从 像素 强度 中 推断 出 来 。 重 要 的 是 要 记 住 ， 算 法 对 数据 (特别 是 视觉 数据 ， 比 如 人 
们 非常 熟悉 的 图 像 ) 的 解释 通常 与 人 类 的 解释 方式 大 不 相同 。 


不 过 让 我 们 回 到 PCA 的 具体 案例 。 我 们 对 PCA 变换 的 介绍 是 : 先 旋 转 数据 ， 然 后 删除 方 
差 较 小 的 成 分 。 另 一 种 有 用 的 解释 是 尝试 找到 一 些 数 字 (PCA 旋转 后 的 新 特征 值 ) ， 使 我 
们 可 以 将 测试 点 表示 为 主 成 分 的 加 权 求 和 ( 见 图 3-10)。 


图 3-10: 图 解 PCA: 将 图 像 分 解 为 成 分 的 加 权 求 和 


8. component 9. component 10. component 


11. component 15. component 
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这 里 和、2 等 是 这 个 数据 点 的 主 成 分 的 系数 ， 换 名 话说 ， 它 们 是 图 像 在 旋转 后 的 空间 中 的 
表示 。 
我 们 还 可 以 用 另 一 种 方法 来 理解 PCA 模型 ， 就 是 仅 使 用 一 些 成 分 对 原始 数据 进行 重建 。 
在 图 3-3 中 ， 在 去 掉 第 二 个 成 分 并 来 到 第 三 张 图 之 后 ， 我 们 反 向 旋转 并 重新 加 上 平均 值 ， 
这 样 就 在 原始 空间 中 获得 去 掉 第 二 个 成 分 的 新 数据 点 ， 正 如 最 后 一 张 图 所 示 。 我 们 可 以 对 
人 脸 做 类 似 的 变换 ， 将 数据 降 维 到 只 包含 一 些 主 成 分 ， 然 后 反 向 旋转 回 到 原始 空间 。 回 到 
原始 特征 空间 可 以 通过 inverse_transform 方 法 来 实现 。 这 里 我 们 分 别 利 用 10 个 、50 个 、 
100 个 和 500 个 成 分 对 一 些 人 脸 进 行 重建 并 将 其 可 视 化 (图 3-11) : 
In[32]: 

mglearn.plots.plot_pca_faces(X_train, X_test, image_shape) 





















































original image 
er 


10 components 50 components 100 components 500 components 


图 3-11; 利用 越 来 越 多 的 主 成 分 对 三 张 人 脸 图 像 进行 重建 


可 以 看 到 ， 在 仅 使 用 前 10 个 主 成 分 时 ， 仅 捕捉 到 了 图 片 的 基本 特点 ， 比 如 人 脸 方向 和 明 
瞳 程度 。 随 着 使 用 的 主 成 分 越 来 越 多 ， 图 像 中 也 保留 了 越 来 越 多 的 细节 。 这 对 应 于 图 3-10 
的 求 和 中 包含 越 来 越 多 的 项 。 如 果 使 用 的 成 分 个 数 与 像素 个 数 相 等 ， 意 味 着 我 们 在 旋转 后 
不 会 丢弃 任何 信息 ， 可 以 完美 重建 图 像 。 


我 们 还 可 以 尝试 使 用 PCA 的 前 两 个 主 成 分 ， 将 数据 集中 的 所 有 人 脸 在 散 点 图 中 可 视 化 
(图 3-12)， 其 类别 在 图 中 给 出 。 这 与 我 们 对 cancer 数据 集 所 做 的 类 似 : 










































无 监督 学 习 与 预 处 理 | 119 


In[33] : 
mgLearn.discrete_scatter(X_train_pca[:，0]，X_train_pca[:，1]，y_train) 
plt.xlabel("First principal component") 
plt.ylabel("Second principal component") 





Second principal component 








First principal component 





3-12: 利用 前 两 个 主 成 分 绘制 人 脸 数 据 集 的 散 点 图 (cancer 数据 集 的 对 应 图 像 见 图 3-5) 


如 你 所 见 ， 如 果 我 们 只 使 用 前 两 个 主 成 分 ， 整 个 数据 只 是 一 大 团 ， 看 不 到 类 别 之 间 的 分 
界 。 这 并 不 意外 ， 因 为 即使 有 10 个 成 分 (正如 图 3-11 所 示 )，PCA 也 仅 捕 捉 到 人 脸 非 常 
粗略 的 特征 。 


3.4.2 ” 非 负 和 矩阵 分 解 


非 负 托 阵 分 解 (non-negative matrix factorization，NMF) 是 另 一 种 无 监督 学 习 算法 ， 其 目 
的 在 于 提取 有 用 的 特征 。 它 的 工作 原理 类 似 于 PCA， 也 可 以 用 于 降 维 。 与 PCA 相同， 我 
们 试图 将 每 个 数据 点 写成 一 些 分 量 的 加 权 求 和 ， 正 如 图 3-10 所 示 。 但 在 PCA 中， 我 们 想 
要 的 是 正 交 分 量 ， 并 且 能 够 解释 尽 可 能 多 的 数据 方差 ， 而 在 NMF 中 ， 我 们 希望 分 量 和 系 
数 均 为 非 负 ， 也 就 是 说 ， 我 们 希望 分 量 和 系数 都 大 于 或 等 于 0。 因 此 ， 这 种 方法 只 能 应 用 
于 每 个 特征 都 是 非 负 的 数据 ， 因 为 非 负 分 量 的 非 负 求 和 不 可 能 变 为 负 值 。 


将 数据 分 解 成 非 负 加 权 求 和 的 这 个 过 程 ， 对 由 多 个 独立 源 相 加 (或 琶 加 ) 创建 而 成 的 数据 
特别 有 用 ， 比 如 多 人 说 话 的 音 轨 或 包含 多 种 乐器 的 音乐 。 在 这 种 情况 下 ，NME 可 以 识别 
出 组 成 合成 数据 的 原始 分 量 。 总 的 来 说 ， 与 PCA 相 比 ，NME 得 到 的 分 量 更 容易 解释 ， 因 
为 负 的 分 量 和 系数 可 能 会 导致 难以 解释 的 抵消 效应 (cancellation effect)。 举 个 例子 ， 轿 
3-9 中 的 特征 脸 同 时 包含 正 数 和 负数 ， 我 们 在 PCA 的 说 明 中 也 提 到 过 ， 正 负 号 实际 上 是 任 
意 的 。 在 将 NMEF 应 用 于 人 脸 数据 集 之 前 ， 我 们 先 来 简要 回顾 一 下 模拟 数据 。 
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1. 将 NMF 应 用 于 模拟 数据 
与 使 用 PCA 不同， 我们 需要 保证 数据 是 正 的 ，NME 能 够 对 数据 进行 操作 。 这 说 明 数 据 相 
对 于 原点 (0, 0) 的 位 置 实际 上 对 NMEF 很 重要 。 因 此 ， 你 可 以 将 提取 出 来 的 非 负 分 量 看 作 是 
从 (0, 0) 到 数据 的 方向 。 

下 面 的 例子 (图 3-13) 给 出 了 NMF 在 二 维 玩具 数据 上 的 结果 : 


In[34]: 
mglearn.plots.plot_nmf_illustration() 



































NMF with two components NMF with one component 


feature 2 
feature 2 











feature 1 feature 1 











图 3-13: 两 个 分 量 的 非 负 和 矩 阵 分 解 ( 左 ) 和 一 个 分 量 的 非 负 和 矩 阵 分 解 ( 右 ) 找到 的 分 量 


对 于 两 个 分 量 的 NMF 〈 如 左 图 所 示 )， 显 然 所 有 数据 点 都 可 以 写成 这 两 个 分 量 的 正 数组 
合 。 如 果 有 足够 多 的 分 量 能 够 完美 地 重建 数据 〈 分 量 个 数 与 特征 个 数 相同 )， 那 么 算法 会 
选择 指向 数据 极 值 的 方向 。 

如 果 我 们 仅 使 用 一 个 分 量 ， 那 么 NME 会 创建 一 个 指向 平均 值 的 分 量 ， 因 为 指向 这 里 可 以 
对 数据 做 出 最 好 的 解释 。 你 可 以 看 到 ， 与 PCA 不 同 ,减少 分 量 个 数 不 仅 会 删除 一 些 方向 ， 
而 且 会 创建 一 组 完全 不 同 的 分 量 ! NMEF 的 分 量 也 没有 按 任何 特定 方法 排序 ， 所 以 不 存在 
“第 一 非 负 分 量 ”: 所 有 分 量 的 地 位 平等 。 


NMF 使 用 了 随机 初始 化 ， 根 据 随机 种 子 的 不 同 可 能 会 产生 不 同 的 结果 。 在 相对 简单 的 情 
况 下 (比如 两 个 分 量 的 模拟 数据 )， 所 有 数据 都 可 以 被 完美 地 解释 ， 那么 随机 性 的 影响 很 
小 (虽然 可 能 会 影响 分 量 的 顺序 或 尺度 )。 在 更 加 复杂 的 情况 下 ， 影 响 可 能 会 很 大 。 


2. 将 NMF 应 用 于 人 脸 图 像 



































现在 我 们 将 NMEF 应 用 于 之 前 用 过 的 Wild 数据 集中 的 Labeled Faces。NME 的 主要 参数 是 
我 们 想 要 提取 的 分 量 个 数 。 通 常 来 说 ， 这 个 数字 要 小 于 输入 特征 的 个 数 (否则 的 话 ， 将 每 
个 像素 作为 单独 的 分 量 就 可 以 对 数据 进行 解释 ) 。 


首先 ， 我们 来 观察 分 量 个 数 如 何 影响 NME 重建 数据 的 好 坏 (图 3-14) : 





Nn 
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In[35] : 
mglearn.plots.plot_nmf_faces(X_train, X_test, image_shape) 





original image 
or 


10 components 50 components 100 components 500 components 


图 3-14: 利用 越 来 越 多 分 量 的 NMF 重建 三 张 人 脸 图 像 


反 向 变换 的 数据 质量 与 使 用 PCA 时 类 似 ， 但 要 稍 差 一 些 。 这 是 符合 预期 的 ， 因 为 PCA 找 
到 的 是 重建 的 最 佳 方向 。NMEF 通常 并 不 用 于 对 数据 进行 重建 或 编码 ， 而 是 用 于 在 数据 中 
寻找 有 趣 的 模式 。 

我 们 尝试 仅 提 取 一 部 分 分 量 〈 比 如 15 个 ) ， 初 步 观察 一 下 数据 。 其 结果 见 图 3-15。 


In[36] : 
from sklearn.decomposition import NMF 
nmf = NMF(n_components=15，random_state=0) 
nmf.fit(X_train) 
X_train_nmf = nmf.transform(X_train) 
X_test_nmf = nmf.transform(X_test) 































fix, axes = plt.subplots(3, 5, figsize=(15, 12), 
subplot_kw={'xticks': (), 'yticks': ()}) 
for i, (component, ax) in enumerate(zip(nmf.components_, axes.ravel())): 
ax.imshow(component.reshape(image_shape)) 
ax.set _ title("{}. component".format(i)) 





大 
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0. component 1. component 2. component 3. component 


6. component 7. component 8. component 


10. component 11. component 12. component 13. component 


图 3-15: 使 用 15 个 分 量 的 NMF 在 人 脸 数据 集 上 找到 的 分 量 


这 些 分 量 都 是 正 的 ， 因 此 比 图 3-9 所 示 的 PCA 分 量 更 像 人 脸 原 型 。 例 如 ， 你 可 以 清楚 地 看 
到 ， 分 量 3 (component 3) 显示 了 稍微 向 右 转 动 的 人 脸 ， 而 分 量 7 (component 7) 则 显示 
了 稍微 向 左 转动 的 人 脸 。 我 们 来 看 一 下 这 两 个 分 量 特别 大 的 那些 图 像 ， 分 别 如 图 3-16 和 图 
3-17 所 示 。 


In[37]: 
Sn = 3 
# 按 第 3 个 分 量 排序 ， 绘 制 前 16 张 图 像 
inds = np.argsort(X_train nmf[:, compn])[::-1] 
fig, axes = plt.subplots(2, 5, figsize=(15, 8), 
subplot_kw={'xticks': (), 'yticks': ()}) 
for i, (ind, ax) in enumerate(zip(inds, axes.ravel())): 
ax.imshow(X_train[ind].reshape(image_shape)) 


4. component 






















5. component 9,. component 





14. component 

































































2 = 7 
# 按 第 7 个 分 量 排序 ， 绘 制 前 16 张 图 像 
inds = np.argsort(X_train nmf[:, compn])[::-1] 
fig, axes = plt.subplots(2, 5, figsize=(15, 8), 
subplot_kw={'xticks': (), 'yticks': ()}) 
for i, (ind, ax) in enumerate(zip(inds, axes.ravel())): 
ax.imshow(X_train[ind].reshape(image_shape)) 
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图 3-17: 分 量 7 系数 较 大 的 人 脸 

正如 所 料 ， 分 量 3 系数 较 大 的 人 脸 都 是 向 右 看 的 人 脸 (图 3-16) ， 而 分 量 7 系数 较 大 的 人 
脸 都 向 左 看 (图 3-17)。 如 前 所 述 ， 提 取 这 样 的 模式 最 适合 于 具有 合 加 结构 的 数据 ， 包 括 
音频 、 基 因 表 达 和 文本 数据 。 我 们 通过 一 个 模拟 数据 的 例子 来 看 一 下 这 种 用 法 。 

假设 我 们 对 一 个 信号 感 兴 趣 ， 它 是 三 个 不 同 信 号 源 合成 的 (图 3-18) : 

In[38]: 


S = mglearn.datasets.make_signals() 
plt.figure(figsize=(6, 1)) 














plt.plot(S, '-') 
plt.xlabel("Time") 
plt.ylabel("Signal") 








0 500 1000 1500 2000 











图 3-18: 原始 信号 源 


不 季 的 是 ， 我 们 无 法 观测 到 原始 信号 ， 只 能 观测 到 三 个 信号 的 厨 加 混合 。 我 们 想 要 将 混合 
信号 分 解 为 原始 分 量 。 假 设 我 们 有 许多 种 不 同 的 方法 来 观测 混合 信号 (比如 有 100 台 测 量 
装置 )， 每 种 方法 都 为 我 们 提供 了 一 系列 测量 结果 。 


In[39] : 
# 将 数据 混合 成 100 维 的 状态 
A = np.random.RandomState(0).uniform(size=(100, 3)) 
X = np.dot(S, A.T) 
print("Shape of measurements: {}".format(X.shape)) 














Out[39] : 
Shape of measurements: (2000，100) 


我 们 可 以 用 NMF 来 还 原 这 三 个 信号 : 


In[40]: 
nmf = NMF(Nn_components=3, random_state=42) 
S_ = nmf.fit_transform(X) 
print("Recovered signal shape: {}".format(S_.shape)) 


Out[40] : 
Recovered signal shape: (2000, 3) 


为 了 对 比 ， 我 们 也 应 用 了 PCA: 


In[41] : 
pca = PCA(n_components=3) 
H = pca.fit_transform(X) 


图 3-19 给 出 了 NME 和 PCA 发 现 的 信号 活动 : 


In[42] : 
models = [X, S, S_, H] 
names = ['Observations (first three measurements) ' ， 
"True sources ' ， 
'NMF recovered signals', 
'PCA recovered signals'] 
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fig, axes = plt.subplots(4, figsize=(8, 4), gridspec_ kw={'hspace': .5}, 
subplot_kw={'xticks': (), 'yticks': ()}) 


for model, name, ax in zip(models, names, axes): 
ax.set_ title(name) 
ax.plot(model[:, :3], '-') 





Observations (first three measurements) 

















图 3-19: 利用 NMF 和 PCA 还原 混 合 信 号 源 


图 中 包含 来 自 X 的 100 次 测量 中 的 3 次 ， 用 于 参 考 。 可 以 看 到 ，NMF 在 发 现 原始 信号 源 
时 得 到 了 不 错 的 结果 ， 而 PCA 则 失败 了 ， 仅 使 用 第 一 个 成 分 来 解释 数据 中 的 大 部 分 变化 。 
要 记 住 ，NME 生成 的 分 量 是 没有 顺序 的 。 在 这 个 例子 中 ，NMEF 分 量 的 顺序 与 原始 信号 完 
全 相同 (参见 三 条 曲线 的 颜色 )， 但 这 纯 属 偶然 。 


还 有 许多 其 他 算法 可 用 于 将 每 个 数据 点 分 解 为 一 系列 国定 分 量 的 加 权 求 和 ， 正 如 PCA 和 
NME 所 做 的 那样 。 讨 论 所 有 这 些 算法 已 超出 了 本 书 的 范围 ， 而 且 描 述 对 分 量 和 系数 的 约 
束 通常 要 涉及 概率 论 。 如 果 你 对 这 种 类 型 的 模式 提取 感 兴趣 ， 我 们 推荐 你 学 习 scikit- 
learn 用 户 指南 中 关于 独立 成 分 分 析 (ICA)、 因 子 分 析 (FA) 和 稀 玻 编码 (字典 学 习 ) 等 
的 内 容 ， 所 有 这 些 内 容 都 可 以 在 关于 分 解 方 法 的 页 面 中 找到 (http://scikit-learn.org/stable/ 


modules/decomposition.html ) 。 
































3.4.3 用 t-SNE 进 行 流 形 学 习 

虽然 PCA 通常 是 用 于 变换 数据 的 首选 方法 ， 使 你 能 够 用 散 点 图 将 其 可 视 化 ， 但 这 一 方法 
的 性 质 〈 先 旋转 然后 减少 方向 ) 限制 了 其 有 效 性 ， 正 如 我 们 在 Wild 数据 集 Labeled Faces 
的 散 点 图 中 所 看 到 的 那样 。 有 一 类 用 于 可 视 化 的 算法 叫 作 流 形 学 习 算法 (manifold learning 
algorithm) ， 它 允许 进行 更 复杂 的 映射 ， 通 常 也 可 以 给 出 更 好 的 可 视 化 。 甚 中 特别 有 用 的 一 
个 就 是 LSNE 算法 。 























流 形 学 习 算 法 主要 用 于 可 视 化 ， 因 此 很 少 用 来 生成 两 个 以 上 的 新 特征 。 其 中 一 些 算法 ( 包 
括 FSNE) 计算 训练 数据 的 一 种 新 表示 ， 但 不 允许 变换 新 数据 。 这 意味 着 这 些 算法 不 能 用 
于 测试 集 : 更 确切 地 说 ， 它 们 只 能 变换 用 于 训练 的 数据 。 流 形 学 习 对 探索 性 数据 分 析 是 很 
有 用 的 ， 但 如 果 最 终 目 标 是 监督 学 习 的 话 ， 则 很 少 使 用 。t-SNE 背后 的 思想 是 找到 数据 的 
一 个 二 维 表示 ， 尽 可 能 地 保持 数据 点 之 间 的 距离 。t-SNE 首先 给 出 每 个 数据 点 的 随机 二 维 
表示 ， 然 后 尝试 让 在 原始 特征 空间 中 距离 较 近 的 点 更 加 靠近 ， 原 始 特征 空间 中 相距 较 远 的 
点 更 加 远离 。t-SNE 重点 关注 距离 较 近 的 点 ， 而 不 是 保持 距离 较 远 的 点 之 间 的 距离 。 换 句 
话说 ， 它 试图 保存 那些 表示 哪些 点 比较 靠近 的 信息 。 


我 们 将 对 scikit-learn 包含 的 一 个 手写 数字 数据 集 应 用 FSNE 流 形 学 习 算法 。 在 这 个 数 
据 集中 ， 每 个 数据 点 都 是 0 到 9 之 间 手 写 数字 的 一 张 8x 8 灰 度 图 像 。 图 3-20 给 出 了 每 个 
类 别 的 一 个 例子 。 


In[43]: 
from sklearn.datasets import load digits 
digits = load digits() 



















































































fig, axes = plt.subplots(2, 5, figsize=(10, 5), 
subplot_ kw={'xticks':(), "yticks': ()}) 
for ax, img in zip(axes.ravel(), digits.images): 
ax.imshow(img) 


Eb 
bp] [9 dE 


图 3-20: digits 数据 集 的 示例 图 像 





















我 们 用 PCA 将 降 到 二 维 的 数据 可 视 化 。 我 们 对 前 两 个 主 成 分 作 图 ， 并 按 类 别 对 数据 点 着 
色 (图 3-21) : 




















In[44]: 
# 构建 一 个 PCA 模 型 
pca = PCA(n_components=2) 
pca.fit(digits.data) 
# 将 digits 数 据 变 换 到 前 两 个 主 成 分 的 方向 上 














注 2: 不 要 与 更 大 的 MNIST 数据 集 弄 混 。 
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digits_pca = pca.transform(digits.data) 
colors = ["#476A2A", "#7851B8", "#BD3430", "#4A2D4E", "#875525", 
"#A83683", "#4E655E", "#853541", "#3A3120", "#535D8E"] 
plt.figure(figsize=(10, 10)) 
plt.xlim(digits pca[:, 0] .min(), digits_pca[:, 0].max()) 
plt.ylim(digits pca[:, 1].min(), digits_pca[:, 1].max()) 
for i in range(len(digits.data)): 
# 将 数据 实际 绘制 成 文本 ， 而 不 是 散 点 
plt.text(digits pca[i, 0], digits pca[i, 1], str(digits.target[i]), 
color = colors[digits.target[i]], 
fontdict={'weight': 'bold', 'size': 9}) 
plt.xlabel("First principal component") 
plt.ylabel("Second principal component") 





Second principal component 








h 上 1 1 1 
-30 -20 -10 0 10 20 30 
First principal component 











图 3-21: 利用 前 两 个 主 成 分 绘制 digits 数据 集 的 散 点 图 
实际 上 ， 这 里 我 们 用 每 个 类 别 对 应 的 数字 作为 符号 来 显示 每 个 类 别 的 位 置 。 利 用 前 两 个 主 
成 分 可 以 将 数字 0、6 和 4 相对 较 好 地 分 开 ， 尽管 仍 有 重 又 。 大 部 分 其 他 数字 都 大 量 重 到 
在 一 起 。 


我 们 将 FSNE 应 用 于 同一 个 数据 集 ， 并 对 结果 进行 比较 。 由 于 CSNE 不 支持 变换 新 数据 ， 
所 以 TSNE 类 没有 transforn 方法 。 我 们 可 以 调用 fit_transforn 方法 来 代替 ， 它 会 构建 模 
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型 并 立刻 返回 变换 后 的 数据 〈 见 图 3-22) : 


In[45] : 
from sklearn.manifold import TSNE 
tsne = TSNE(random_state=42) 
# 使 用 fit_transform 而 不 是 fit， 因 为 TSNE 没 有 transform 方 法 
digits_ tsne = tsne.fit transform(digits.data) 











In[46]: 
plt.figure(figsize=(10, 10)) 
plt.xlim(digits tsne[:, 0] .min(), digits tsne[:, 0].max() + 1) 
plt.ylim(digits tsne[:, 1].min(), digits tsne[:, 1].max() + 1) 
for i in range(len(digits.data)): 
# 将 数据 实际 绘制 成 文本 ， 而 不 是 散 点 
plt.text(digits_ tsne[i, 0], digits tsne[i, 1], str(digits.target[i]), 
color = colors[digits.target[i]], 
fontdict={'weight': 'bold', 'size': 9}) 
plt.xlabel("t-SNE feature 0") 
plt.xlabel("t-SNE feature 1") 











t-SNE feature 1 











图 3-22: 利用 tSNE 找到 的 两 个 分 量 绘制 digits 数据 集 的 散 点 图 
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t-SNE 的 结果 非常 棒 。 所 有 类 别 都 被 明确 分 开 。 数 字 1 和 9 被 分 成 几 块 ， 但 大 多 数 类 别 都 
形成 一 个 密集 的 组 。 要 记 住 ， 这 种 方法 并 不 知道 类 别 标签 ， 它 完全 是 无 监督 的 。 但 它 能 够 
找到 数据 的 一 种 二 维 表示 ， 仅 根据 原始 空间 中 数据 点 之 间 的 靠近 程度 就 能 够 将 各 个 类 别 明 
确 分 开 。 

t-SNE 算法 有 一 些 调节 参数 ， 虽然 默 认 参 数 的 效果 通常 就 很 好 。 你 可 以 尝试 修改 
perplexity 和 earLy_exaggeration， 但 作用 一 般 很 小 。 























3.5 聚 类 

我 们 前 面 说 过 ， 聚 类 (clustering) 是 将 数据 集 划 分 成 组 的 任务 ， 这 些 组 叫 作 答 (cluster)。 
其 目标 是 划分 数据 ， 使 得 一 个 徐 内 的 数据 点 非常 相似 且 不 同 徐 内 的 数据 点 非常 不 同 。 与 分 
类 算法 类 似 ， 聚 类 算法 为 每 个 数据 点 分 配 (或 预测 ) 一 个 数字 ， 表 示 这 个 点 属于 哪个 徐 。 


3.5.1 kk 均 值 聚 类 
k 均值 察 类 是 最 简单 也 最 常用 的 察 类 算法 之 一 。 它 试图 找到 代表 数据 特定 区 域 的 簇 中 心 
(cluster center) 。 算 法 交替 执行 以 下 两 个 步 又: 将 每 个 数据 点 分 配给 最 近 的 徐 中 心 ， 然 后 将 
每 个 复 中 心 设置 为 所 分 配 的 所 有 数据 点 的 平均 值 。 如 果 徐 的 分 配 不 再 发 生变 化 ， 那 么 算法 
结束 。 下 面 的 例子 (图 3-23) 在 一 个 模拟 数据 集 上 对 这 一 算法 进行 说 明 : 
In[47] : 

mgLearn.pLots.pLot_kmeans_aLgorithm() 


























Input data Initialization Assign Points (1) 
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3-23: 输入 数据 与 均值 算法 的 三 个 步骤 
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徐 中 心 用 三 角形 表示 ， 而 数据 点 用 圆 形 表 示 。 颜 色 表 示 簇 成员。 我 们 指定 要 寻找 三 个 徐 ， 
所 以 通过 声明 三 个 随机 数据 点 为 复 中 心 来 将 算法 初始 化 〈 见 图 中 “Initialization”/“ 初 
始 化 ”)。 然 后 开始 迭代 算法 。 首 先 ， 每 个 数据 点 被 分 配给 距离 最 近 的 徐 中 心 ( 见 图 中 
“Assign Points (1)”/“ 分 配 数 据点 (1)”)。 接 下 来 ， 将 簇 中 心 修改 为 所 分 配点 的 平均 值 
( 见 图 中 “Recompute Centers (1)”/“ 重 新 计算 中 心 (1)”)。 然 后 将 这 一 过 程 再 重复 两 次 。 
在 第 三 次 迭代 之 后 ， 为 徐 中 心 分 配 的 数据 点 保持 不 变 ， 因 此 算法 结束 。 


给 定 新 的 数据 点 , k 均 值 会 将 其 分 配给 最 近 的 复 中 心 。 下 一 个 例子 〈 图 3-24) 展示 了 图 
3-23 学 到 的 徐 中 心 的 边界 : 
In[48] : 

mglearn.plots.plot_kmeans_boundaries() 


























图 3-24: k 均值 算法 找到 的 簇 中 心 和 簇 边界 


用 scikit-learn 应 用 均值 相当 简单 。 下 面 我 们 将 其 应 用 于 上 图 中 的 模拟 数据 。 我 们 将 
KMeans 类 实例 化 ， 并 设置 我 们 要 寻找 的 簇 个 数 *。 然 后 对 数据 调用 fit 方法 : 
In[49]: 


from sklearn.datasets import make_blobs 
from sklearn.cluster import KMeans 


# 生成 模拟 的 二 维 数据 
X, y = make_blobs(random_state=1) 





# 构建 聚 类 模型 
kmeans = KMeans(n_clusters=3) 
kmeans .fit(X) 








轩 





注 3: 如 果 不 指定 n_clusters， 它 的 默认 值 是 8。 使 用 这 个 值 并 没有 什么 特别 的 原 
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算法 运行 期 间 ， 为 X 中 的 每 个 训练 数据 点 分 配 一 个 徐 标 签 。 你 可 以 在 kneans.labels_ 属性 
中 找到 这 些 标签 : 


In[50]: 
print("Cluster memberships:\n{}".format(kmeans.labels. )) 








Out[50]: 
Cluster memberships: 
[1222000211220100012202012001101101202 
2200212201111200010221120022010122201 
12001212201111210112200101] 


因为 我 们 要 找 的 是 3 个 禾 ， 所 以 徐 的 编号 是 0 到 2。 
你 也 可 以 用 predict 方法 为 新 数据 点 分 配 徐 标 签 。 预 测 时 会 将 最 近 的 徐 中 心 分 配给 每 个 新 
数据 点 ， 但 现 有 模型 不 会 改变 。 对 训练 集运 行 predict 会 返回 与 labels_ 相同 的 结果 : 


In[51]: 
print(kmeans.predict(X)) 

















Out[51] : 


[12220002112201000122020120 
22002122011112000102211200 
12001212201111210112200101 


可 以 看 到 ， 聚 类 算法 与 分 类 算法 有 些 相 似 ， 每 个 元 素 都 有 一 个 标签 。 但 并 不 存在 真实 的 标 
签 ， 因 此 标签 本 身 并 设 有 先 验 意义 。 我 们 回 到 之 前 讨论 过 的 人 脸 图 像 聚 类 的 例子 。 聚 类 的 
结果 可 能 是 ， 算 法 找到 的 第 3 个 簇 仅 包含 你 朋友 Bela 的 面孔 。 但 只 有 在 查看 图 片 之 后 才能 
知道 这 一 点 ， 而 且 数 字 3 是 任意 的 。 算 法 给 你 的 唯一 信息 就 是 所 有 标签 为 3 的 人 脸 都 是 相 
似 的 。 

对 于 我 们 刚刚 在 二 维 玩具 数据 集 上 运行 的 聚 类 算法 ， 这 意味 着 我 们 不 应 该 为 其 中 一 组 的 标 
签 是 0、 另 一 组 的 标签 是 1 这 一 事实 赋予 任何 意义 。 再 次 运行 该 算法 可 能 会 得 到 不 同 的 禾 
编号 ， 原 因 在 于 初始 化 的 随机 性 质 。 


下 面 又 给 出 了 这 个 数据 的 图 像 (图 3-25)。 钞 中 心 被 保存 在 cluster_centers_ 属性 中 ,我 
们 用 三 角形 表示 它们 : 


In[52]: 
mglearn.discrete_ scatter(X[:, 0], X[:, 1], kmeans.labels_, markers='0') 
mglearn.discrete scatter( 
kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], [0, 1, 2], 
markers='^', markeredgewidth=2) 
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i 0 2 
图 3-25: 3 个 禾 的 k 均值 算法 找到 的 族 分 配 和 族 中 心 


我 们 也 可 以 使 用 更 多 或 更 少 的 簇 中 心 (图 3-26) : 


In[53]: 
fig, axes = plt.subplots(1, 2, figsize=(10, 5)) 


# 使 用 2 个 徐 中 心 : 

kmeans = KMeans(n_clusters=2) 
kmeans .fit(X) 

assignments = kmeans.labels_ 











mglearn.discrete_scatter(X[:, 0], X[:, 1], assignments, ax=axes[0]) 


# 使 用 5 个 复 中 心 : 

kmeans = KMeans(n_clusters=5) 
kmeans.fit(X) 

assignments = kmeans.labels_ 





mglearn.discrete_scatter(X[:, 0], X[:, 1], assignments, ax=axes[1]) 
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3-26: 使 用 2 个 簇 ( 左 ) 和 5 个 艇 ( 右 ) 的 k 均 值 算法 找到 的 簇 分 配 
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1. k 均 值 的 失败 案例 
即使 你 知道 给 定数 据 集中 复 的 “正确 ”个 数 , Kk 均值 可 能 也 不 是 总 能 找到 它们 。 每 个 复 仅 
由 其 中 心 定义 ， 这 意味 着 每 个 复 都 是 凸 形 (convex)。 因 此 , k 均 值 只 能 找到 相对 简单 的 形 
状 。k 均值 还 假设 所 有 徐 在 某 种 程度 上 具有 相同 的 “直径 ” ， 它 总 是 将 禾 之 间 的 边界 刚好 画 
在 徐 中 心 的 中 间 位 置 。 有 时 这 会 导致 令 人 惊讶 的 结果 ， 如 图 3-27 所 示 : 
In[54]: 

X_varied, y_varied = make_blobs(n_samples=200, 

cluster_std=[1.0, 2.5, 0.5], 


random_state=170) 
y_pred = KMeans(n_clusters=3, random_ state=0).fit_ predict(X_varied) 



































mglearn.discrete scatter(X_ varied[:, 0], X_varied[:, 1], y_pred) 
plt.legend(["cluster 0", "cluster 1", "cluster 2"], loc='best') 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 





Feature 1 


cluster 0 
cluster 1 
cluster 2 





Feature 0 











图 3-27: 艇 的 密度 不 同时 ，K 均值 找到 的 簇 分 配 


你 可 能 会 认为 ， 左 下 方 的 密集 区 域 是 第 一 个 答 ， 右 上 方 的 密集 区 域 是 第 二 个 ， 中 间 密 度 较 
小 的 区 域 是 第 三 个 。 但 事实 上 ， 徐 0 和 徐 1 都 包含 一 些 远离 禾 中 其 他 点 的 点 。 

k 均值 还 假设 所 有 方向 对 每 个 徐 都 同等 重要 。 图 3-28 显示 了 一 个 二 维 数据 集 ， 数 据 中 包含 
明确 分 开 的 三 部 分 。 但 是 这 三 部 分 被 沿 着 对 角 线 方向 拉 长 。 由 于 k 均值 仅 考虑 到 最 近 徐 中 
心 的 距离 ， 所 以 它 无 法 处 理 这 种 类 型 的 数据 : 

In[55]: 


# 生成 一 些 随机 分 组 数据 
X, y = make_blobs(random_state=170, n_samples=600) 
rng = np.random.RandomState(74) 





























# 变换 数据 使 其 拉 长 


transformation = rng.normal(size=(2, 2)) 
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X = np.dot(X, transformation) 


# 将 数据 聚 类 成 3 个 徐 

kmeans = KMeans(n_clusters=3) 
kmeans .fit(X) 

y_pred = kmeans.predict(X) 





# 画 出 徐 分 配 和 矮 中 心 

plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap=mglearn.cm3) 

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], 
marker='^', c=[0, 1, 2], s=100, linewidth=2, cmap=mglearn.cm3) 

plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 








Feature 1 
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图 3-28: k 均值 无 法 识别 非 球形 簇 


如 果 徐 的 形状 更 加 复杂 ， 比 如 我 们 在 第 2 章 遇 到 的 two_moons 数据 ， 那 么 均值 的 表现 也 
很 差 ( 见 图 3-29) : 


In[56]: 
# 生成 模拟 的 two_moons 数 据 (这 次 的 噪声 较 小 ) 


from sklearn.datasets import make_moons 
X, y = make_moons(n_samples=200, noise=0.05, random_state=0) 


# 将 数据 聚 类 成 2 个 徐 

kmeans = KMeans(n_clusters=2) 
kmeans .fit(X) 

y_pred = kmeans.predict(X) 








# 画 出 徐 分 配 和 簇 中 心 

plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap=mglearn.cm2, s=60) 

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], 
marker='^', c=[mglearn.cm2(0), mglearn.cm2(1)], s=100, linewidth=2) 

plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 





无 监督 学 习 与 预 处 理 | 135 











0.0 


oS 
a 
> 
, 





:村 1 1 1 
-=1.5 =10 一 0.5 0.0 0.5 1.0 15 2.0 25 
Feature 0 





图 3-29: 均值 无 法 识别 具有 复杂 形状 的 簇 








这 是 


有 我们 希望 聚 类 算法 能 够 发 现 两 个 半月 形 。 但 利用 均值 算法 是 不 可 能 做 到 这 











2. 矢量 量化 ， 或 者 将 k 均 值 看 作 分 解 
虽然 k 均 值 是 一 种 聚 类 算法 ,但 在 k 均值 和 分 解 方 法 (比如 之 前 讨论 过 的 PCA 和 NMEF) 
之 间 存 在 一 些 有 趣 的 相似 之 处 。 你 可 能 还 记得 ，PCA 试图 找到 数据 中 方差 最 大 的 方向 ， 而 


NMF 试图 找到 累加 的 分 量 ， 这 通常 对 应 于 数据 的 “ 极 值 ”或 “部 分 ”( 见 图 
方法 都 试图 将 数据 点 表示 为 一 些 分 量 之 和 。 与 之 相反 , 上 均值 则 尝试 利用 旬 疾 中 心 来 表示 每 





















































个 数据 点 。 你 可 以 将 其 看 作 仅 用 一 个 分 量 来 表示 每 个 数据 点 ， 该 分 量 由 禾 中 心 给 
观点 将 上 均值 看 作 是 一 种 分 解 方法 ， 其 中 每 个 点 用 单一 分 量 来 表示 ， 这 种 观点 被 称 为 关 量 


量化 (vector quantization ) 。 


我 人 


分 量 


























3-13)。 两 种 


一 点 的 





出 。 这 种 


] 来 并 排比 较 PCA、NMF 和 均值 ,分别 显示 提取 的 分 量 (图 3-30) ， 以 及 利用 100 个 


对 测试 集中 人 脸 的 重建 (图 3-31)。 对 于 k 均 值 ， 重 建 就 是 在 训练 集中 找到 的 最 近 的 

















复 
In[ 


In[ 





心 : 


57] : 

X_train, X_test, y_train, y_test = train_test_spLit( 
X_people, y_people, stratify=y_people, random_ state=0) 

nmf = NMF(n_components=100，random_state=0) 
nmf.fit(X_train) 
pca = PCA(n_components=100, random_state=0) 
pca.fit(X_train) 
kmeans = KMeans(n_clusters=100, random_state=0) 
kmeans.fit(X_train) 


X_reconstructed_pca = pca.inverse_transform(pca.transform(X_test)) 
X_reconstructed_kmeans = kmeans.cluster_centers_[kmeans.predict(X_test)] 
X_reconstructed_nmf = np.dot(nmf.transform(X_test), nmf.components_) 


58]: 
fig, axes = plt.subplots(3, 5, figsize=(8, 8), 
subplot_ kw={"'xticks': (), 'yticks': ()}) 








fig.suptitle("Extracted Components") 
for ax, comp_kmeans, comp_pca, comp_nmf in zip( 
axes.T, kmeans.cluster_centers_, pca.components_, Nmf.components. ): 
ax[0].imshow(comp_kmeans.reshape(image_shape)) 
ax[1].imshow(comp_pca.reshape(image_shape), cmap='viridis') 
ax[2].imshow(comp_nmf.reshape(image_shape)) 


axes[0, 0].set_ylabel("kmeans") 
axes[1, 0].set_ylabel("pca") 
axes[2, 0].set_ylabel("nmf") 


fig, axes = plt.subplots(4, 5, subplot_ kw={'xticks': (), 'yticks': ()}, 
figsize=(8, 8)) 
fig.suptitle("Reconstructions") 
for ax, orig, rec_kmeans, rec_pca, rec_nmf in zip( 
axes.T, X_test, X_reconstructed kmeans, X_reconstructed_pca, 
X_reconstructed_nmf): 


ax[0].imshow(orig.reshape(image_shape)) 
ax[1].imshow(rec_kmeans.reshape(image_shape)) 
ax[2].imshow(rec_pca.reshape(image_shape)) 
ax[3].imshow(rec_nmf.reshape(image_shape)) 


axes[0, 0].set_ylabel("original") 
axes[1, 0].set_ylabel("kmeans") 
axes[2, 0].set_ylabel("pca") 
axes[3, 0].set_ylabel("nmf") 





Extracted Components 
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3-30: 对 比 k 均 值 的 簇 中 心 与 PCA 和 NMF 找到 的 分 量 
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3-31: 利用 100 个 分 量 (或 艇 中 心 ) 的 k 均 值 PCA 和 NMF 的 图 像 重 建 的 对 比 一 一 k 均值 的 每 
张 图 像 中 仅 使 用 了 一 个 簇 中 心 


用 K 均值 做 矢量 量化 的 一 个 有 趣 之 处 在 于 ， 可 以 用 比 输入 维度 更 多 的 禾 来 对 数据 进行 编 
码 。 让 我 们 回 到 two_moons 数据 。 利 用 PCA 或 NMF， 我 们 对 这 个 数据 无 能 为 力 ， 因 为 它 
只 有 两 个 维度 。 使 用 PCA 或 NM 将 其 降 到 一 维 ， 将 会 完全 破坏 数据 的 结构 。 但 通过 使 用 
更 多 的 复 中 心 ， 我 们 可 以 用 k 均值 找到 一 种 更 具 表现 力 的 表示 ( 见 图 3-32) ; 


In[59]: 
X, y = make_moons(n_samples=200, noise=0.05, random_state=0) 


kmeans = KMeans(n_clusters=10, random_state=0) 
kmeans .fit(X) 
y_pred = kmeans.predict(X) 


plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=60, cmap='Paired') 

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=60, 
marker='^', c=range(kmeans.n_clusters), linewidth=2, cmap='Paired') 

plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 

print("Cluster memberships:\n{}".format(y_pred)) 


Out[59] : 
CLuster memberships: 
人 54279696102619303176868527589865370 
450135289156107463363804296482840405 
a 59307807589807397172204567894541231 
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图 3-32: 利用 k 均值 的 许多 簇 来 表示 复杂 数据 集中 的 变化 


我 们 使 用 了 10 个 簇 中心 ， 也 就 是 说 ， 现 在 每 个 点 都 被 分 配 了 0 到 9 之 间 的 一 个 数字 。 我 们 
可 以 将 其 看 作 10 个 分 量 表示 的 数据 (我 们 有 10 个 新 特征 )， 只 有 表示 该 点 对 应 的 簇 中 心 的 
那个 特征 不 为 0， 其 他 特征 均 为 0。 利 用 这 个 10 维 表示 ， 现 在 可 以 用 线性 模型 来 划分 两 个 
半月 形 ， 而 利用 原始 的 两 个 特征 是 不 可 能 做 到 这 一 点 的 。 将 到 每 个 自 中 心 的 距离 作为 特征 ， 
还 可 以 得 到 一 种 表现 力 更 强 的 数据 表示 。 可 以 利用 kmeans 的 transforn 方法 来 完成 这 一 点 : 


In[60] : 
distance_features = kmeans.transform(X) 
print("Distance feature shape: {}".format(distance_features.shape)) 
print("Distance features:\n{}".format(distance_features)) 



































Out[60] : 
Distance feature shape: (200, 10) 
Distance features: 
[[ 0.922 1.466 1.14 ..., 1.166 1.039 0.233] 
[ 1.142 2.517 0.12 ..., 0.707 .204 .983] 
[ 0.788 0.774 1.749 ..., 1.971 0.716 0.944] 


Dh 
© 


[ 0.446 1.106 1.49 ..., 1.791 1.032 0.812] 
[ 1.39 0.798 1.981 ..., 1.978 .239 .058] 
[ 1.149 2.454 0.045 ..., 0.572 2.113 0.882]] 


© 
2 




















k 均值 是 非常 流行 的 聚 类 算法 ， 因 为 它 不 仅 相 对 容易 理解 和 实现 ， 而 且 运 行 速度 也 相对 较 
快 。k 均值 可 以 轻松 扩展 到 大 型 数据 集 ，scikit-learn 甚至 在 MiniBatchkMeans 类 中 包含 了 
一 种 更 具 可 扩展 性 的 变 体 ， 可 以 处 理 非常 大 的 数据 集 。 


k 均值 的 缺点 之 一 在 于 ， 它 依赖 于 随机 初始 化 ， 也 就 是 说 ， 算 法 的 输出 依赖 于 随机 种 子 。 
默认 情况 下 ，scikit-learn 用 10 种 不 同 的 随机 初始 化 将 算法 运行 10 次 ， 并 返回 最 佳 结 
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果 。k 均值 还 有 一 个 缺点 ， 就 是 对 徐 形 状 的 假 投 的 约束 性 较 强 ， 而 且 还 要 求 指定 所 要 寻找 
的 复 的 个 数 〈 在 现实 世界 的 应 用 中 可 能 并 不 知道 这 个 数字 )。 


接 下 来 ， 我 们 将 学 习 另 外 两 种 聚 类 算法 ， 它 们 都 在 某 些 方面 对 这 些 性 质 做 了 改进 。 




















3.5.2 ”凝聚 聚 类 
凝聚 聚 类 (agglomerative clustering) 指 的 是 许多 基于 相同 原则 构建 的 聚 类 算法 ， 这 一 原则 
是 : 算法 首先 声明 每 个 点 是 自己 的 徐 ， 然 后 合并 两 个 最 相似 的 复 ， 直 到 满足 某 种 停止 准则 
为 止 。scikit-tLearn 中 实现 的 停止 准则 是 徐 的 个 数 ， 因 此 相似 的 徐 被 合并 ， 直 到 仅 剩 下 指 
定 个 数 的 复 。 还 有 一 些 链接 (linkage) 准则 ， 规 定 如 何 度量 “最 相似 的 复 ”。 这 种 度量 总 
是 定义 在 两 个 现 有 的 复 之 间 。 
scikit-Learn 中 实现 了 以 下 三 种 选项 。 
ward 
默认 选项 。ward 挑选 两 个 徐 来 合并 ， 使 得 所 有 徐 中 的 方差 增加 最 小 。 这 通常 会 得 到 大 
小 差不多 相等 的 徐 。 














average 
average 链接 将 得 中 所 有 点 之 间 平 均 距 离 最 小 的 两 个 复合 并 。 
complete 


complete 链接 (也 称 为 最 大 链接 ) 将 徐 中 点 之 间 最 大 距离 最 小 的 两 个 复合 并 。 


ward 适用 于 大 多 数 数据 集 ， 在 我 们 的 例子 中 将 使 用 它 。 如 果 徐 中 的 成 员 个 数 非常 不 同 〈 比 
如 其 中 一 个 比 其 他 所 有 都 大 得 多 ) ， 那 么 average 或 complete 可 能 效果 更 好 。 


3-33 给 出 了 在 一 个 二 维 数据 集 上 的 凝聚 聚 类 过 程 ， 要 寻找 三 个 禾 。 


In[61] : 
mgLearn.pLots.pLot_aggLomerative_aLgorithm() 














Initialization Step1 Step 2 Step 3 Step 4 
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3-33: 凝聚 聚 类 用 迭代 的 方式 合并 两 个 最 近 的 簇 





注 4: 在 这 种 情况 下 ,“ 最 佳 ”的 意思 是 簇 的 方差 之 和 最 小 。 
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最 开始 ， 每 个 点 自 成 一 徐 。 然 后 在 每 一 个 步骤 中 ， 相 距 最近 的 两 个 禾 被 合并 。 在 前 四 个 步 
又 中 ， 选 出 两 个 单 点 复 并 将 其 合并 成 两 点 徐 。 在 步骤 5 (Step 5) 中 ， 其 中 一 个 两 点 徐 被 
扩展 到 三 个 点 ， 以 此 类 推 。 在 步骤 9 (Step 9) 中 ， 只 剩 下 3 个 答 。 由 于 我 们 指定 寻找 3 个 
禾 ， 因 此 算法 结束 。 


我 们 来 看 一 下 凝聚 聚 类 对 我 们 这 里 使 用 的 简单 三 复数 据 的 效果 如 何 。 由 于 算法 的 工作 原 
理 ， 凝 聚 算法 不 能 对 新 数据 点 做 出 预测 。 因 此 AggLomerativeCLustering 没有 predict 方 
法 。 为 了 构造 模型 并 得 到 训练 集 上 矮 的 成 员 关系 ， 可 以 改 用 fit_predict 方法 。 结果 如 图 
3-34 所 示 。 

In[62]: 


from sklearn.cluster import AgglomerativeClustering 
X, y = make_blobs(random_state=1) 









































agg = AgglomerativeClustering(n_clusters=3) 
assignment = agg.fit predict(X) 


mglearn.discrete_scatter(X[:, 0], X[:, 1], assignment) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1") 





10 





@ Cluster0 
人 Cluster1l 
六 Cluster 2 


Feature 1 


一 10 





Feature 0 








3-34: 使 用 3 个 簇 的 凝聚 聚 类 的 艇 分 配 

正如 所 料 ， 算 法 完美 地 完成 了 聚 类 。 虽 然 凝 聚 聚 类 的 scikit-learn 实现 需要 你 指定 希望 
算法 找到 的 得 的 个 数 ， 但 凝聚 聚 类 方法 为 选择 正确 的 个 数 提 供 了 一 些 帮 助 ， 我 们 将 在 下 
面 讨 论 。 

1. 层次 聚 类 与 树 状 图 

凝聚 聚 类 生成 了 所 谓 的 层次 聚 类 (hierarchical clustering)。 聚 类 过 程 迭代 进行 ， 每 个 点 都 


a 








注 5: 我 们 也 可 以 使 用 tabets_ 属 性， 正如 k 均值 所 做 的 那样 。 
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从 一 个 单 点 禾 变 为 属于 最 终 的 某 个 徐 。 每 个 中 间 步 骤 都 提供 了 数据 的 一 种 聚 类 〈 禾 的 个 数 


也 不 相同 )。 








有 了 时候 ， 同 时 查看 所 有 可 能 的 聚 类 是 有 帮助 的 。 下 一 个 例子 (图 3-35) 肥 加 














显示 了 图 3-33 中 所 有 可 能 的 聚 类 ， 有 助 于 深入 了 解 每 个 徐 如 何 分 解 为 较 小 的 簇 : 





In[63]: 
mglearn 


.plots.plot_agglomerative() 

















图 3-35: 凝聚 聚 类 生成 的 层次 化 的 簇 分 配 (用 线 表示 ) 以 及 带 有 编号 的 数据 点 (参见 图 3-36) 


虽然 这 种 可 视 化 为 层次 聚 类 提供 了 非常 详细 的 视图 ， 但 它 依赖 于 数据 的 二 维 性 质 ， 因 此 不 
能 用 于 具有 两 个 以 上 特征 的 数据 集 。 但 还 有 另 一 个 将 层次 聚 类 可 视 化 的 工具 ， 叫 作 树 状 图 
(dendrogram) ， 它 可 以 处 理 多 维 数据 集 。 


不 幸 的 是 ， 目 前 scikit-learn 没有 绘制 树 状 图 的 功能 。 但 你 可 以 利用 SciPy 轻松 生成 树 状 
图 。SciPy 的 聚 类 算法 接口 与 scikit-learn 的 聚 类 算法 稍 有 不 同 。SciPy 提供 了 一 个 函数 ， 
接受 数据 数组 Xx 并 计算 出 一 个 链接 数组 (linkage array) ， 它 对 层次 聚 类 的 相似 度 进行 编码 。 
然后 我 们 可 以 将 这 个 链接 数组 提供 给 scipy 的 dendrogran 国 数 来 绘制 树 状 图 (图 3-36)。 


In[64]: 
# 从 Sci 


from sc 


X，y = 
# 将 war 
# Scipy 
linkage 


# 现在 为 包含 徐 之 间距 离 的 Linkage_array 绘 制 树 状 医 


dendrog 


# 在 树 
ax = pl 





























Py 中 性 入 dendrogram 呆 数 和 ward 肾 类 函数 
ipy.cluster.hierarchy import dendrogram, ward 





make_blobs(random_state=0, n_samples=12) 
d 聚 类 应 用 于 数据 数组 X 
的 ward 函 数 返回 一 个 数组 ， 指 定 执行 凝聚 聚 类 时 跨越 的 距离 


_array = ward(X) 












































ram(Linkage_array) 





标记 划分 成 两 个 徐 或 三 个 复 的 位 置 
t.gca() 





A 
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bounds = ax.get_xbound() 
ax.plot(bounds, [7.25, 7.25], '--', c='k') 
ax.plot(bounds, [4, 4], '--', c='k') 


ax.text(bounds[1], 7.25, ' two clusters', va='center', fontdict={'size': 15}) 
ax.text(bounds[1], 4, ' three clusters', va='center', fontdict={'size': 15}) 
plt.xlabel("Sample index") 

plt.ylabel("Cluster distance") 





two clusters 


three clusters 


Cluster distance 








1 4 3 2 8 5 0 11 10 7 6 9 
Sample index 











3-36: 图 3-35 中 聚 类 的 树 状 图 (用 线 表示 划分 成 两 个 簇 和 三 个 簇 ) 


树 状 图 在 底部 显示 数据 点 〈 编 号 从 0 到 11)。 然 后 以 这 些 点 (表示 单 点 复 ) 作为 叶 节 点 给 
制 一 棵 树 ， 每 合并 两 个 敌 就 添加 一 个 新 的 父 节 点 。 


从 下 往 上 看 ， 数 据点 1 和 4 首先 被 合并 (正如 你 在 图 3-33 中 所 见 )。 接 下 来 ， 点 6 和 9 被 
合并 为 一 个 徐 ， 以 此 类 推 。 在 顶层 有 两 个 分 支 ， 一 个 由 点 11、0、5、10、7、6 和 9 组 成 ， 
另 一 个 由 点 1、4、3、2 和 8 组 成 。 这 对 应 于 图 中 左 侧 两 个 最 大 的 徐 。 

树 状 图 的 > 轴 不 仅 说 明 凝 聚 算法 中 两 个 复 何 时 合并 ， 每 个 分 支 的 长 度 还 表示 被 合并 的 复 之 
间 的 距离 。 在 这 张 树 状 图 中 ， 最 长 的 分 支 是 用 标记 为 “three clusters” (三 个 禾 ) 的 虚线 表 
示 的 三 条 线 。 它 们 是 最 长 的 分 支 ， 这 表示 从 三 个 徐 到 两 个 徐 的 过 程 中 合并 了 一 些 距离 非常 
远 的 点 。 我 们 在 图 像 上 方 再 次 看 到 这 一 点 ， 将 剩 下 的 两 个 复 合 并 为 一 个 复 也 需要 跨越 相对 
较 大 的 距离 。 


不 幸 的 是 ， 凝 聚 聚 类 仍然 无 法 分 离 像 two_moons 数据 集 这 样 复杂 的 形状 。 但 我 们 要 学 习 的 
下 一 个 算法 DBSCAN 可 以 解决 这 个 问题 。 












































3.5.3 DBSCAN 


另 一 个 非常 有 用 的 聚 类 算法 是 DBSCAN (density-based spatial clustering of applications with 
noise， 即 “具有 噪声 的 基于 密度 的 空间 聚 类 应 用 ")。DBSCAN 的 主要 优点 是 它 不 需要 用 
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户 先 验 地 设置 得 的 个 数 ， 可 以 划分 具有 复杂 形状 的 得 ， 还 可 以 找 出 不 属于 任何 禾 的 点 。 
DBSCAN 比 凝聚 聚 类 和 均值 稍 慢 ， 但 仍 可 以 扩展 到 相对 较 大 的 数据 集 。 


DBSCAN 的 原理 是 识别 特征 空间 的 “拥挤 ”区 域 中 的 点 ， 在 这 些 区 域 中 许多 数据 点 靠近 
一 起 。 这 些 区 域 被 称 为 特征 空间 中 的 密集 (dense) 区 域 。DBSCAN 背后 的 思想 是 ， 徐 
成 数据 的 密集 区 域 ， 并 由 相对 较 空 的 区 域 分 隔 开 。 


在 密集 区 域内 的 点 被 称 为 核心 样本 (core sample， 或 核心 点 ) ， 它 们 的 定义 如 下 。DBSCAN 
有 两 个 参数 : min_samples 和 eps。 如 果 在 距 一 个 给 定数 据点 eps 的 距离 内 至 少 有 min_ 
samples 个 数据 点 ， 那 么 这 个 数据 点 就 是 核心 样本 。DBSCAN 将 彼此 距离 小 于 eps 的 核心 
样本 放 到 同一 个 徐 中 。 

算法 首先 任意 选取 一 个 点 ， 然 后 找到 到 这 个 点 的 距离 小 于 等 于 eps 的 所 有 的 点 。 如 果 
距 起 始点 的 距离 在 eps 之 内 的 数据 点 个 数 小 于 min_samptes， 那 么 这 个 点 被 标记 为 噪 
声 (noise) ， 也 就 是 说 它 不 属于 任何 徐 。 如 果 距 离 在 eps 之 内 的 数据 点 个 数 大 于 min_ 
samptes， 则 这 个 点 被 标记 为 核心 样本 ， 并 被 分 配 一 个 新 的 签 标 签 。 然 后 访问 该 点 的 所 有 
邻居 (在 距离 eps 以 内 ) 。 如 果 它 们 还 没有 被 分 配 一 个 答 ， 那 么 就 将 刚刚 创建 的 新 的 签 标 
签 分 配给 它们 。 如 果 它 们 是 核心 样本 ， 那 么 就 依次 访问 其 邻居 ， 以 此 类 推 。 徐 逐渐 增 大 ， 
直到 在 徐 的 eps 距离 内 没有 更 多 的 核心 样本 为 止 。 然 后 选取 另 一 个 尚未 被 访问 过 的 点 ， 
并 重复 相同 的 过 程 。 


最 后 ， 一 共有 三 种 类 型 的 点 : 核心 点 、 与 核心 点 的 距离 在 eps 之 内 的 点 ( 叫 作 边界 点 ， 
boundary point) 和 噪声 。 如 果 DBSCAN 算法 在 特定 数据 集 上 多 次 运行 ， 那 么 核心 点 的 聚 
类 始终 相同 ， 同 样 的 点 也 始终 被 标记 为 噪声 。 但 边界 点 可 能 与 不 止 一 个 徐 的 核心 样本 相 
邻 。 因 此 ， 边 界 点 所 属 的 复 依 赖 于 数据 点 的 访问 顺序 。 一 般 来 说 只 有 很 少 的 边界 点 ， 这 种 
对 访问 顺序 的 轻 度 依赖 并 不 重要 。 

我 们 将 DBSCAN 应 用 于 演示 凝聚 聚 类 的 模拟 数据 集 。 与 凝聚 聚 类 类 似 ，DBSCAN 也 不 允 
许 对 新 的 测试 数据 进行 预测 ， 所 以 我 们 将 使 用 fit_predict 方法 来 执行 聚 类 并 返回 禾 标 签 。 
In[65]: 


from sklearn.cluster import DBSCAN 
X, y = make_blobs(random_state=0, n_samples=12) 












































或 时 


















































LO 


dbscan = DBSCAN() 
clusters = dbscan.fit_ predict(X) 
print("Cluster memberships:\n{}".format(clusters)) 


Out[65]: 

Cluster memberships: 

[二 
如 你 所 见 ， 所 有 数据 点 都 被 分 配 了 标签 -1， 这 代表 噪声 。 这 是 eps 和 min_samptes 默认 参 
数 设置 的 结果 ， 对 于 小 型 的 玩具 数据 集 并 没有 调节 这 些 参数 。min_sanptLes 和 eps 取 不 同 值 
时 的 簇 分 类 如 下 所 示 ， 其 可 视 化 结果 见 图 3-37。 
In[66]: 

mglearn.plots.plot_dbscan() 
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out[66] : 























min_samples: 2 eps: 1.000000 cluster: [-1 0 0 -1 0-1 1 1 60 1-1-1] 
min_samples: 2 eps: 1.500000 cluster: [0 11110221220] 
min_samples: 2 eps: 2.000000 cluster: [0 1111000100 0] 
min_samples: 2 eps: 3.000000 cluster: [000000000000] 
min_samples: 3 eps: 1.000000 cluster: [-1 0 0-1 0-1 1 1 0 1-1-1] 
min_samples: 3 eps: 1.500000 cluster: [0 11110221220] 
min_samples: 3 eps: 2.000000 cluster: [0 1111000100 0] 
min_samples: 3 eps: 3.000000 cluster: [000000000000] 
min_samples: 5 eps: 1.000000 cluster: [-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1] 
min_samples: 5 eps: 1.500000 cluster: [-1 0 0 0 0-1-1-1 0-1 -1 -1] 
min_samples: 5 eps: 2.000000 cluster: [-1 0 0 0 0-1-1-1 0-1 -1 -1] 
min_samples: 5 eps: 3.000000 cluster: [000000000000] 
min_samples: 2 eps: 1.0 min_samples: 2 eps: 1.5 min_samples: 2 eps: 2.0 min_samples: 2 eps: 3.0 
O 全 ® 
eoe® AAA AAA eoe® 
本 全 4 订 @ 江 @ 
全 4 @ @ @ © e@ ®@ 
®@ ®@ 
@ @ 
min_samples: 3 eps: 2.0 min_samples: 3 eps: 3.0 
AAA eg® 
A v 
全 及 四 介 ®@ 
7 了 7"” ee e e@ Se e 
© @ 年 
®@ ®@ 
min_samples: 5 eps: 2.0 min_samples: 5 eps: 3.0 
eo® eo® 
O 村 O 人 O 〇 © ®@ 
oO 0 0 a es vd 包 可 @g@ © 
O O 3 @ 
oO O © 





























3-37: 在 min_samples 和 eps 参数 不 同 取 值 的 情况 下 ，DBSCAN 找到 的 艇 分 配 





EE 





在 这 张 图 中 ， 属 于 禾 的 点 是 实心 的 ， 而 噪声 点 则 显示 为 空心 的 。 核 心 样本 显示 为 较 大 的 标 
记 ， 而 边界 点 则 显示 为 较 小 的 标记 。 增 大 eps〈 在 图 中 从 左 到 右 )， 更 多 的 点 会 被 包含 在 一 
个 复 中 。 这 让 徐 变 大 ， 但 可 能 也 会 导致 多 个 复合 并 成 一 个 。 增 大 min_samples (在 图 中 从 
上 到 下 )， 核 心 点 会 变 得 更 少 ， 更 多 的 点 被 标记 为 噪声 。 

参数 eps 在 某 种 程度 上 更 加 重要 ， 因 为 它 决 定 了 点 与 点 之 间 “ 接 近 ” 的 含义 。 将 eps 设置 
得 非常 小 ， 意 味 着 没有 点 是 核心 样本 ， 可 能 会 导致 所 有 点 都 被 标记 为 噪声 。 将 eps 设置 得 
非常 大 ， 可 能 会 导致 所 有 点 形成 单个 禾 。 
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设置 min_samples 主要 是 为 了 判断 稀 玻 区 域内 的 点 被 标记 为 异常 值 还 是 形成 自己 的 徐 。 如 
果 增 大 min_samples， 任 何 一 个 包含 少 于 min_samples 个 样本 的 簇 现在 将 被 标记 为 噪声 。 因 
此 ，min_samples 决定 徐 的 最 小 尺寸 。 在 图 3-37 中 eps=1.5 时 ， 从 min_samples=3 到 min_ 
samples=5， 你 可 以 清楚 地 看 到 这 一 点 。min_samples=3 时 有 三 个 复 : 一 个 包含 4 个 点 ,一 
个 包含 5 个 点 ,一 个 包含 3 个 点 。min_samples=5 时 ， 两 个 较 小 的 徐 (分 别 包含 3 个 点 和 4 
个 点 ) 现在 被 标记 为 噪声 ， 只 保留 包含 5 个 样本 的 复 。 


虽然 DBSCAN 不 需要 显 式 地 设置 徐 的 个 数 ， 但 设置 eps 可 以 隐 式 地 控制 找到 的 徐 的 个 数 。 
使 用 StandardScaler 或 MinMaxScaler 对 数据 进行 缩放 之 后 ， 有 时 会 更 容易 找到 eps 的 较 好 
取 值 ， 因 为 使 用 这 些 缩放 技术 将 确保 所 有 特征 具有 相似 的 范围 。 


图 3-38 展示 了 在 two_moons 数据 集 上 运行 DBSCAN 的 结果 。 利 用 默认 设置 ， 算 法 找到 了 
两 个 半圆 形 并 将 其 分 开 : 
In[67]: 

X, y = make_moons(n_samples=200, noise=0.05, random_state=0) 

# 将 数据 缩放 成 平均 值 为 9、 方差 为 1 

scaler = StandardScaler() 


scaler .fit(X) 
X_scaled = scaler.transform(X) 
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dbscan = DBSCAN() 

clusters = dbscan.fit_predict(X_scaled) 

# 绘制 簇 分 配 

plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, cmap=mglearn.cm2, s=60) 
plt.xlabel("Feature 0") 

plt.ylabel("Feature 1") 





Feature 1 





Feature 0 











3-38: 利用 默认 值 eps=9.5 的 DBSCAN 找到 的 簇 分 配 
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由 于 算法 找到 了 我 们 想 要 的 复 的 个 数 (2 个 )， 





因此 参数 设置 的 效果 似乎 很 好 。 如 果 将 eps 


减 小 到 90.2 (默认 值 为 6.5)， 我 们 将 会 得 到 8 个 徐 ， 这 显然 太 多 了 。 将 eps 增 大 到 0.7 则 
会 导致 具有 一 个 徐 。 





























3.5.4” 聚 类 算法 的 对 比 与 评估 









































在 使 用 DBSCAN 时 ， 你 需要 谨慎 处 理 返回 的 签 分 配 。 如 有 果 使 用 禾 标 签 对 另 一 个 数据 进行 
索引 ， 那 么 使 用 -1 表示 噪声 可 能 会 产生 意料 之 外 的 结果 。 


在 应 用 聚 类 算法 时 ， 其 挑战 之 一 就 是 很 难 评 佑 一 个 算法 的 效果 好 坏 ， 也 很 难 比 较 不 同 算法 


的 结果 。 在 讨论 完 k 均 值 、 凝 聚 聚 类 和 DBSCAN 背后 的 算法 之 后 ， 下 面 我 们 将 在 一 些 现 
实 世 界 的 数据 集 上 比较 它们 。 
1. 用 真实 值 评估 聚 类 

有 一 些 指标 可 用 于 评估 聚 类 算法 相对 于 真实 聚 类 的 结果 ， 其 中 最 重要 的 是 调整 rand 指数 
(adjusted rand index，ARI) 和 归 一 化 互信 息 (normalized mutual information，NMI)， 二 者 


都 给 出 了 定量 的 度量 ， 其 最 佳 值 为 1，0 表示 不 相关 的 聚 类 (虽然 ARI 可 以 取 负 值 
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下 本 














将 点 随机 分 配 到 两 个 复 中 的 图 像 ( 见 图 3-39 ) 。 
In[68]: 





from sklearn.metrics.cluster import adjusted_rand_score 
X, y = make_moons(n_samples=200, noise=0.05, random_state=0) 


# 将 数据 缩放 成 平均 值 为 0、 方差 为 1 
scaler = StandardScaler() 

scaler .fit(X) 

X_scaled = scaler.transform(X) 





fig, axes = plt.subplots(1, 4, figsize=(15, 3), 
subplot_kw={'xticks': (), 'yticks': ()}) 


# 列 出 要 使 用 的 算法 
algorithms = [KMeans(n_clusters=2), AgglomerativeClustering(n_clusters=2), 
DBSCAN()] 





# 创建 一 个 随机 的 簇 分 配 ， 作 为 参考 
random_state = np.random.RandomState(seed=0) 
random_cLusters = random_state.randint(Low=0，high=2，size=Len(X)) 


# 绘制 随机 分 配 
axes[0].scatter(X_scaled[:, 0], X_scaled[:, 1], c=random_clusters, 
cmap=mglearn.cm3, s=60) 
axes[0].set title("Random assignment - ARI: {:.2f}".format( 
adjusted_rand_score(y, random clusters))) 





for ax, algorithm in zip(axes[1:], algorithms): 
# 绘制 复 分 配 和 复 中 心 
clusters = algorithm.fit predict(X_scaled) 
ax.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, 





i 我 们 使 用 ARI 来 比较 kk 均值、 凝聚 聚 类 和 DBSCAN 算法 。 为 了 对 比 ， 我 们 还 添加 了 


o 
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cmap=mglearn.cm3, s=60) 
ax.set title("{} - ARI: {:.2f}".format(algorithm. class _._nName_ ， 
adjusted_rand_score(y, clusters))) 





Random assignment - ARI: 0.00 KMeans - ARI: 0.50 AgglomerativeClustering - ARI: 0.61 DBSCAN - ARI: 1.00 



































3-39: 利用 监督 ARI 分 数 在 two_moons 数据 集 上 比较 随机 分 配 、k 均值 、 凝 聚 聚 类 和 DBSCAN 


调整 rand 指数 给 出 了 符合 直觉 的 结果 ， 随 机 簇 分 配 的 分 数 为 0， 而 DBSCAN (完美 地 找到 
了 期 望 中 的 聚 类 ) 的 分 数 为 1。 


用 这 种 方式 评估 聚 类 时 ， 一 个 常见 的 错误 是 使 用 accuracy_score 而 不 是 adjusted_rand_ 
score、normalized_mutual_info_score 或 其 他 聚 类 指标 。 使 用 精度 的 问题 在 于 ， 它 要 求 分 
配 的 徐 标 签 与 真实 值 完全 匹配 。 但 徐 标 签 本 身 毫 无 意义 一 一 唯一 重要 的 是 哪些 点 位 于 同一 
个 禾 中 。 
In[69] : 

from sklearn.metrics import acCuracy_score 























# 这 两 种 点 标签 对 应 于 相同 的 聚 类 

clusters1 = [0, 0, 1, 1, 0] 

clusters2 = [1, 1, 0, 0, 1] 

# 精度 为 6， 因为 二 者 标签 完全 不 同 

print("Accuracy: {:.2f}".format(accuracy_score(CLusters1，CLusters2))) 
# 调整 rand 分 数 为 1， 因 为 二 者 聚 类 完全 相同 

print("ARI: {:.2f}".format(adjusted_rand_score(CLusters1，CLusters2))) 














Out[69] : 
Accuracy: 0.00 
ARI: 1.00 


2. 在 没有 真实 值 的 情况 下 评估 聚 类 

我 们 刚刚 展示 了 一 种 评估 聚 类 算法 的 方法 ， 但 在 实践 中 ， 使 用 诸如 ARI 之 类 的 指标 有 一 个 
很 大 的 问题 。 在 应 用 聚 类 算法 时 ， 通 常 没 有 真实 值 来 比较 结果 。 如 果 我 们 知道 了 数据 的 正 
确 聚 类 ， 那 么 可 以 使 用 这 一 信息 构建 一 个 监督 模型 (比如 分 类 器 )。 因 此 ， 使 用 类 似 ARI 
和 NMI 的 指标 通常 仅 有 助 于 开发 算法 ， 但 对 评估 应 用 是 否 成 功 没 有 帮助 。 

有 一 些 聚 类 的 评分 指标 不 需要 真实 值 ， 比 如 轮廓 系数 (silhouette coeffcient) 。 但 它们 在 实 
践 中 的 效果 并 不 好 。 轮 廓 分 数 计算 一 个 徐 的 紧 致 度 ， 其 值 越 大 越 好 ， 最 高 分 数 为 1。 虽 然 
紧 致 的 复 很 好 ， 但 紧 致 度 不 允许 复杂 的 形状 。 

下 面 是 一 个 例子 ， 利 用 轮廓 分 数 在 two_moons 数据 集 上 比较 k 均值 、 凝 聚 聚 类 和 DBSCAN 
(图 3-40) : 


















































A 
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In[70] : 
from sklearn.metrics.cluster import SiLhouette_score 


X, y = make_moons(n_samples=200, noise=0.05, random_state=0) 

# 将 数据 缩放 成 平均 值 为 0、 方差 为 1 

scaler = StandardScaler() 

scaler .fit(X) 

X_scaled = scaler.transform(X) 

fig, axes = plt.subplots(1, 4, figsize=(15, 3), 
subplot_kw={"'xticks': (), 'yticks': ()}) 








# 创建 一 个 随机 的 簇 分 配 ， 作 为 参考 
random_state = np.random.RandomState(seed=0) 
random_clusters = random_state.randint(Low=0，high=2，size=Len(X)) 





# 绘制 随机 分 配 

axes[0].scatter(X_scaled[:, 0], X_scaled[:, 1], c=random_clusters, 
cmap=mglearn.cm3, s=60) 

axes[0].set_ title("Random assignment: {:.2f}".format( 
silhouette score(X_scaled, random clusters))) 


algorithms = [KMeans(n_clusters=2), AgglomerativeClustering(n_clusters=2),， 
DBSCAN()] 


for ax, algorithm in zip(axes[1:], algorithms): 
clusters = algorithm.fit predict(X_scaled) 
# 绘制 复 分 配 和 复 中 心 
ax.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, cmap=mglearn.cm3, 





s=60) 
ax.set title("{} : {:.2f}".format(algorithm. class _._nName ， 
silhouette_ score(X_scaled, clusters))) 





Random assignment: -0.00 KMeans : 0.49 AgglomerativeClustering : 0.46 DBSCAN : 0.38 
































图 3-40: 利用 无 监督 的 轮廓 分 数 在 two_moons 数据 集 上 比较 随机 分 配 、k 均值 、 凝 聚 聚 类 和 
DBSCAN (更 符合 直觉 的 DBSCAN 的 轮廓 分 数 低 于 k 均值 找到 的 分 配 ) 




















如 你 所 见 ，k 均值 的 轮廓 分 数 最 高 ， 尽 管 我 们 可 能 更 喜欢 DBSCAN 的 结果 。 对 于 评估 聚 
类 ， 稍 好 的 策略 是 使 用 基于 和 鲁 棒 性 的 (robustness-based) 聚 类 指标 。 这 种 指标 先 向 数据 中 
添加 一 些 噪 声 ， 或 者 使 用 不 同 的 参数 设 定 ， 然 后 运行 算法 ， 并 对 结果 进行 比较 。 其 思想 
是 ， 如 果 许 多 算法 参数 和 许多 数据 扰动 返回 相同 的 结果 ， 那 么 它 很 可 能 是 可 信 的 。 不 幸 的 
是 ， 在 写作 本 书 时 ，scikit-learn 还 没有 实现 这 一 策略 。 


即使 我 们 得 到 一 个 鲁 棒 性 很 好 的 聚 类 或 者 非常 高 的 轮廓 分 数 ， 但 仍然 不 知道 聚 类 中 是 否 有 
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任何 语义 含义 ， 或 者 聚 类 是 否 反 映 了 数据 中 我 们 感 兴 趣 的 某 个 方面 。 我 们 回 到 人 脸 图 像 的 
例子 。 我 们 希望 找到 类 似 人 脸 的 分 组 ， 比 如 男人 和 女人 、 老 人 和 年 轻 人 ， 或 者 有 胡子 的 人 
和 没 胡 子 的 人 。 假 设 我 们 将 数据 分 为 两 个 符 ， 关 于 哪些 点 应 该 被 聚 类 在 一 起 ， 所 有 算法 的 
结果 一 致 。 我 们 仍 不 知道 找到 的 得 是 否 以 某 种 方式 对 应 于 我 们 感 兴趣 的 概念 。 算 法 找到 的 
可 能 是 侧 视 图 和 正面 视图 、 夜 间 拍摄 的 照片 和 白天 拍摄 的 照片 ， 或 者 iPhone 拍摄 的 照片 和 
安 卓 手机 拍摄 的 照片 。 要 想 知 道 聚 类 是 否 对 应 于 我 们 感 兴趣 的 内 容 ， 唯 一 的 办 法 就 是 对 徐 
进行 人 工分 析 。 

3. 在 人 脸 数据 集 上 比较 算法 

我 们 将 k 均 值 、DBSCAN 和 凝聚 聚 类 算法 应 用 于 Wild 数据 集中 的 Labeled Faces， 并 查 
看 它们 是 否 找到 了 有 趣 的 结构 。 我 们 将 使 用 数据 的 特征 脸 表 示 ， 它 由 包含 100 个 成 分 的 
PCA(whiten=True) 生成 : 









































In[71] : 
# 从 Lfw 数 据 中 提取 特征 脸 ， 并 对 数据 进行 变换 


from sklearn.decomposition import PCA 

pca = PCA(Cn_components=100，Whiten=True，random_state=0) 
pca.fit_ transform(X_peopLe) 

X_pca = pca.transform(X_people) 


我 们 之 前 见 到 ， 与 原始 像素 相 比 ， 这 是 对 人 脸 图 像 的 一 种 语义 更 强 的 表示 。 它 的 计算 速度 
也 更 快 。 这 里 有 一 个 很 好 的 练习 ， 就 是 在 原始 数据 上 运行 下 列 实验 ， 不 要 用 PCA， 并 观察 
你 是 否 能 找到 类 似 的 禾 。 


用 DBSCAN 分 析 人 脸 数据 集 。 我 们 首先 应 用 刚刚 讨论 过 的 DBSCAN: 


In[72] : 
# 应 用 默认 参数 的 DBSCAN 
dbscan = DBSCAN() 
labels = dbscan.fit predict(X_pca) 
print("Unique labels: {}".format(np.unique(labels))) 
































Out[72] : 
Unique labels: [-1] 


我 们 看 到 ， 所 有 返回 的 标签 都 是 -1， 因 此 所 有 数据 都 被 DBSCAN 标记 为 “噪声 ”。 我 们 可 
以 改变 两 个 参数 来 改进 这 一 点 : 第 一 ， 我 们 可 以 增 大 eps， 从 而 扩展 每 个 点 的 邻 域 ， 第 二 ， 
我 们 可 以 减 小 min_sanptes， 从 而 将 更 小 的 点 组 视 为 符 。 我 们 首先 尝试 改 变 min_samples: 


In[73] : 
dbscan = DBSCAN(min_samples=3) 
labels = dbscan.fit predict(X_pca) 
print("Unique labels: {}".format(np.unique(labels))) 








Out[73] : 
Unique labels: [-1] 


即使 仪 考虑 由 三 个 点 构成 的 组 ， 所 有 点 也 都 被 标记 为 噪声 。 因 此 我 们 需要 增 大 eps: 





In[74] : 
dbscan = DBSCAN(min_samples=3, eps=15) 
labels = dbscan.fit predict(X_pca) 
print("Unique labels: {}".format(np.unique(labels))) 


Out[74] : 
Unique labels: [-1 0] 


使 用 更 大 的 eps (其 值 为 15)， 我 们 只 得 到 了 单一 徐 和 噪声 点 。 我 们 可 以 利用 这 一 结果 找 出 


“噪声 ”相对 于 其 他 数据 的 形状 。 为 了 进一步 理解 发 生 的 事情 ， 我 们 查看 有 多 少 点 是 噪声 ， 
有 多 少 点 在 簇 内 : 


In[75]: 
# 计算 所 有 徐 中 的 点 数 和 噪声 中 的 点 数 。 
# bincount 不 允许 负 值 ， 所 以 我 们 需要 加 1。 
# 结果 中 的 第 一 个 数字 对 应 于 噪声 点 。 


print("Number of points per cluster: {}".format(np.bincount(labels + 1))) 























Out[75] : 
Number of points per cluster: [ 27 2036] 








噪声 点 非常 少 一 一 只 有 27 个 ， 因 此 我 们 可 以 查看 所 有 的 噪声 点 〈 见 图 3-41) : 
In[76] : 


noise = X_people[labels==-1] 
fig, axes = plt.subplots(3, 9, subplot_ kw={'xticks': (), 'yticks': ()}, 
figsize=(12, 4)) 


for image, ax in zip(noise, axes.ravel()): 
ax.imshow(image.reshape(image_shape), vmin=0, vmax=1) 


因 图 册 图 国民 
四 同 四 已 民 
4 2 六 =4 
a 图 f、 a 
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转 冉 图 图 图 图 


图 3-41: 人 脸 数据 集中 被 DBSCAN 标记 为 噪声 的 样本 


将 这 些 图 像 与 图 3-7 中 随机 选择 的 人 脸 图 像样 本 进行 比较 ， 我 们 可 以 猜测 它们 被 标记 为 
噪声 的 原因 : 第 1 行 第 5 张 图 像 显 示 一 个 人 正在 用 玻璃 杯 喝 水 ， 还 有 人 戴 帽 子 的 图 像 ， 
在 最 后 一 张 图 像 中 ， 人 脸 前 面 有 一 只 手 。 其 他 图 像 都 包含 奇怪 的 角度 ， 或 者 太 近 或 太 宽 
的 剪 切 。 
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这 种 类 型 的 分 析 尝试 找 出 “奇怪 的 那 一 个 ”一 一 被 称 为 异常 值 检测 (outlier 
detection) 。 如 果 这 是 一 个 真实 的 应 用 ， 那 么 我 们 可 能 会 尝试 更 好 地 裁 切 图 像 ， 以 得 到 更 加 
匀 匀 的 数据 。 对 于 照片 中 的 人 有 时 戴 着 帽子 、 喝 水 或 在 面前 举 着 某 物 ， 我 们 能 做 的 事情 很 
少 。 但 需要 知道 它们 是 数据 中 存在 的 问题 ， 我 们 应 用 任何 算法 都 需要 解决 这 些 问题 。 


如 果 我 们 想 要 找到 更 有 趣 的 徐 ， 而 不 是 一 个 非常 大 的 徐 ， 那 么 需要 将 eps 设置 得 更 小 ， 取 
值 在 15 和 9.5 (默认 值 ) 之 间 。 我 们 来 看 一 下 eps 不 同 取 值 对 应 的 结果 : 


In[77]: 
for eps in [1, 3, 5, 7, 9, 11, 13]: 
print("\neps={}".format(eps)) 
dbscan = DBSCAN(eps=eps, min_samples=3) 
labels = dbscan.fit predict(X_pca) 
print("Clusters present: {}".format(np.unique(labels))) 
print("Cluster sizes: {}".format(np.bincount(labels + 1))) 



































Out[77] : 
eps=1 
Clusters present: [-1] 
Cluster sizes: [2063] 


eps=3 
Clusters present: [-1] 
Cluster sizes: [2063] 


eps=5 
Clusters present: [-1] 
Cluster sizes: [2063] 


eps=7 
Clusters present: [-1 0 1 2 3 4 5 6 7 8 910 11 12] 
Cluster sizes: [2006 4 6 6 6 9 3 3 4 3 3 3 3 4] 


eps=9 
Clusters present: [-1 0 1 2] 
Cluster sizes: [1269 788 3 3] 


eps=11 
Clusters present: [-1 0] 
Cluster sizes: [ 430 1633] 


eps=13 
Clusters present: [-1 0] 
Cluster sizes: [ 112 1951] 


对 于 较 小 的 eps， 所 有 点 都 被 标记 为 噪声 。eps=7 时 ， 我 们 得 到 许多 噪声 点 和 许多 较 小 的 
禾 。eps=9 时 ， 我 们 仍 得 到 许多 噪声 点 ， 但 我 们 得 到 了 一 个 较 大 的 徐 和 一 些 较 小 的 和 化。 从 
eps=11 开始 ， 我 们 仅 得 到 一 个 较 大 的 禾 和 噪声 。 
有 趣 的 是 ， 较 大 的 簇 从 来 没有 超过 一 个 。 最 多 有 一 个 较 大 的 徐 包 含 大 多 数 点 ， 还 有 一 些 较 
小 的 徐 。 这 表示 数据 中 没有 两 类 或 三 类 非常 不 同 的 人 脸 图 像 ， 而 是 所 有 图 像 或 多 或 少 地 都 
与 其 他 图 像 具 有 相同 的 相似 度 (或 不 相似 度 )。 
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eps=7 的 结果 看 起 来 最 有 趣 ， 它 有 许多 较 小 的 徐 。 我 们 可 以 通过 将 13 个 较 小 的 竹中 的 点 全 














部 可 视 化 来 深入 研究 这 一 聚 类 (图 3-42) : 


In[78] : 
dbscan = DBSCAN(min_samples=3, eps=7) 
labels = dbscan.fit predict(X_pca) 


for cluster in range(max(labels) + 1): 
mask = labels == cluster 
N_images = np.sum(mask) 
fig, axes = plt.subplots(1, Nn_images, figsize=(n images * 1.5, 4), 
subplot_ kw={'xticks': (), 'yticks': ()}) 
for image, label, ax in zip(X_people[mask], y_people[mask], axes): 


ax.imshow(image.reshape(image_shape), vmin=0, vmax=1) 
ax.set_title(people.target names[label].split()[-1]) 
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图 3-42: eps=7 的 DBSCAN 找到 的 艇 


有 一 些 复 对 应 于 (这 个 数据 集中 ) 脸 部 非常 不 同 的 人 ， 比 如 Sharon (沙龙 ) 或 Koizumi 





无 监督 学 习 与 预 处 理 





(小 朱 )。 在 每 个 禾 内 ， 人 脸 方向 和 面部 表情 也 是 固定 的 。 有 些 复 中 包含 多 个 人 的 面孔 ， 但 
他 们 的 方向 和 表情 都 相似 。 


这 就 是 我 们 将 DBSCAN 算法 应 用 于 人 脸 数 据 集 的 分 析 结 论 。 如 你 所 见 ， 我 们 这 里 进行 了 
人 工分 析 ， 不 同 于 监督 学 习 中 基于 R 分 数 或 精度 的 更 为 自动 化 的 搜索 方法 。 


下 面 我 们 将 继续 应 用 k 均值 和 凝聚 聚 类 。 


用 k 均值 分 析 人 脸 数据 集 。 我 们 看 到 ， 利 用 DBSCAN 无 法 创建 多 于 一 个 较 大 的 徐 。 凝 聚 
聚 类 和 均值 更 可 能 创建 均匀 大 小 的 徐 ， 但 我 们 需要 设置 徐 的 目标 个 数 。 我 们 可 以 将 徐 的 
数量 设置 为 数据 集中 的 已 知人 数 ， 虽 然 无 监督 聚 类 算法 不 太 可 能 完全 找到 它们 。 相 反 ， 我 
们 可 以 首先 设置 一 个 比较 小 的 得 的 数量 ， 比 如 10 个 ， 这 样 我 们 可 以 分 析 每 个 禾 : 
In[79]: 

# 用 k 均 值 提 取 复 


km = KMeans(n_clusters=10, random_state=0) 
labels_km = km.fit_predict(X_pca) 
print("Cluster sizes k-means: {}".format(np.bincount(labels_km))) 





























Out[79] : 
CLuster sizes k-means: [269 128 170 186 386 222 237 64 253 148] 


如 你 所 见 ,k 均 值 聚 类 将 数据 划分 为 大 小 相似 的 徐 ， 其 大 小 在 64 和 386 之 间 。 这 与 
DBSCAN 的 结果 非常 不 同 。 


我 们 可 以 通过 将 簇 中 心 可 视 化 来 进一步 分 析 k 均 值 的 结果 (图 3-43)。 由 于 我 们 是 在 PCA 
生成 的 表示 中 进行 聚 类 ， 因 此 我 们 需要 使 用 pca.inverse_transforn 将 徐 中 心 旋转 回 到 原 
台 空 间 并 可 视 化 : 
In[80] : 
fig, axes = plt.subplots(2, 5, subplot_ kw={'xticks': (), 'yticks': ()}, 
figsize=(12, 4)) 
for center, ax in zip(km.cluster_centers_, axes.ravel()): 


ax.imshow(pca.inverse_transform(center).reshape(image_shape), 
vmin=0, vmax=1) 


图 3-43: 将 艇 的 数量 设置 为 10 时 , 均值 找到 的 簇 中心 


k 均值 找到 的 徐 中 心 是 非常 平滑 的 人 脸 。 这 并 不 奇怪 ， 因 为 每 个 簇 中 心 都 是 64 到 386 张 人 
脸 图 像 的 平均 。 使 用 降 维 的 PCA 表示 ， 可 以 增加 图 像 的 平滑 度 (对 比 图 3-11 中 利用 100 
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个 PCA 维度 重建 的 人 脸 )。 聚 类 似乎 捕捉 到 人 脸 的 不 同方 向 、 不 同 表情 (第 3 个 复 中 心 似 
乎 显示 的 是 一 张 笑脸 ) ， 以 及 是 否 有 衬衫 领子 〈 见 倒数 第 二 个 复 中 心 ) 。 

图 3-44 允 验 出 了 更 详细 的 视图 ， 我 们 对 每 个 复 中 心 给 出 了 徐 中 5 张 最 典型 的 图 像 〈 该 徐 中 与 
复 中 心 距离 最 近 的 图 像 ) 与 5 张 最 不 典型 的 图 像 〈 该 复 中 与 徐 中 心 距离 最 远 的 图 像 ) : 
In[81] : 


mglearn.plots.plot_kmeans_faces(km, pca, X_pca, X_people, 
y_people, people.target_names) 
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EO 然后 是 五 个 距 中 心 最近 的 点 ， 然 后 
是 五 个 距 该 艇 距 中 心 最 远 的 点 


图 3-44 证 实 了 我 们 认为 第 3 个 簇 是 笑脸 的 直觉 ， 也 证 实 了 其 他 簇 中 方向 的 重要 性 。 不 过 
“非典 型 的 ”点 与 簇 人 et 
实 : 均值 对 所 有 数据 点 进行 划分 ,不 像 DBSCAN 那样 具有 “噪声 ”点 的 概念 。 利 用 更 多 
数量 的 禾 ， 站 但 添加 更 多 的 簇 会 使 得 人 工 检查 更 加 困难 。 
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用 凝聚 聚 类 分 析 人 脸 数据 集 。 下 面 我 们 来 看 一 下 凝聚 聚 类 的 结果 : 


In[82]: 
# 用 ward 凝 聚 聚 类 提取 复 
aggLomerative = AgglomerativeClustering(n_clusters=10) 
LabeLs_agg = agglomerative.fit predict(X_pca) 
print("Cluster sizes agglomerative clustering: {}".format( 
np.bincount(labels_agg))) 


Out[82]: 
Cluster sizes agglomerative clustering: [255 623 86 102 122 199 265 26 230 155] 


凝聚 聚 类 生成 的 也 是 大 小 相近 的 和 化， 其 大 小 在 26 和 623 之 间 。 这 比 k 均 值 生成 的 簇 更 不 
均匀 ， 但 比 DBSCAN 生成 的 徐 要 更 加 均匀 。 


我 们 可 以 通过 计算 ARI 来 度量 凝聚 聚 类 和 K 均值 给 出 的 两 种 数据 划分 是 否 相似 : 


In[83] : 
print("ARI: {:.2f}".format(adjusted_rand_score(labels agg, labels_km))) 


Out[83]: 
ARI: 0.13 


ARI 只 有 0.13， 说 明 labels_agg 和 labels_knm 这 两 种 聚 类 的 共同 点 很 少 。 这 并 不 奇怪 ， 原 
因 在 于 以 下 事实 : 对 于 kk 均值， 远离 徐 中 心 的 点 似乎 没有 什么 共同 点 。 


下 面 ， 我 们 可 能 会 想 要 绘制 树 状 图 (图 3-45)。 我 们 将 限制 图 中 树 的 深度 ， 因 为 如 果 分 支 
到 2063 个 数据 点 ， 图 像 将 密密麻麻 无 法 阅读 : 


In[84]: 
linkage_array = ward(X_pca) 
# 现在 我 们 为 包含 徐 之 间距 离 的 Linkage_array 绘 制 树 状 图 
plt.figure(figsize=(20, 5)) 
dendrogram(linkage_array, p=7, truncate mode='level', no_labels=True) 
plt.xlabel("Sample index") 
plt.ylabel("Cluster distance") 


















































































































































3-45: 凝聚 聚 类 在 人 脸 数据 集 上 的 树 状 图 


要 想 创建 10 个 和 化， 我 们 在 顶部 有 10 条 竖 线 的 位 置 将 树 横 切 。 在 图 3-36 所 示 的 玩具 数据 
的 树 状 图 中 ， 你 可 以 从 分 支 的 长 度 中 看 出 ， 两 个 或 三 个 簇 就 可 以 很 好 地 划分 数据 。 对 于 
人 脸 数 据 而 言 ， 似 乎 没有 非常 自然 的 切割 点 。 有 一 些 分 支 代表 更 为 不 同 的 组 ， 但 似乎 没 
有 一 个 特别 合适 的 条 的 数量 。 这 并 不 奇怪 ， 因 为 DBSCAN 的 结果 是 试图 将 所 有 的 点 都 聚 
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类 在 一 起 。 


我 们 将 10 个 得 可 视 化 ， 正 如 之 前 对 kk 均值 所 做 的 那样 (图 3-46)。 请 注意 ， 在 凝聚 聚 类 中 
没有 竹中 心 的 概念 〈 虽 然 我 们 计算 平均 值 )， 我 们 只 是 给 出 了 每 个 复 的 前 儿 个 点 。 我 们 在 
第 一 张 图 像 的 左 侧 给 出 了 每 个 禾 中 的 点 的 数量 : 


In[85] : 
n_CLusters = 10 
for cluster in range(n_CLusters ) : 
mask = LabeLs_agg == cluster 
fig, axes = plt.subplots(1, 10, subplot kw={'xticks': (), 'yticks': ()}, 
figsize=(15, 8)) 
axes[0].set_ylabel(np.sum(mask)) 
for image, label, asdf, ax in zip(X_people[mask], y_people[mask], 
labels_agg[mask], axes): 
ax.imshow(image.reshape(image_shape), vmin=0, vmax=1) 
ax.set_title(people.target names[label].split()[-1], 
fontdict={'fontsize': 9}) 
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图 3-46: In[82] 生成 的 簇 中 的 随机 图 像 一 -每 一 行 对 应 一 个 徐 ， 左 侧 的 数字 表示 每 个 簇 中 图 像 的 数量 
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虽然 某 些 禾 似 乎 具有 语义 上 的 主题 ， 但 许多 禾 都 太 大 而 实际 上 很 难 是 均匀 的 。 为 了 得 到 更 加 均 
匀 的 复 ， 我 们 可 以 再 次 运行 算法 ， 这 次 使 用 40 个 徐 ， 并 挑选 出 一 些 特 别 有 趣 的 徐 (图 3-47) : 


In[86] : 
# 用 ward 凝 聚 聚 类 提取 秘 
agglomerative = AgglomerativeClustering(n_clusters=40) 
LabeLs_agg = agglomerative.fit predict(X_pca) 
print("cluster sizes agglomerative clustering: {}".format(np.bincount(labels_agg))) 





n_clusters = 40 
for cluster in [10，13，19，22，36]: # 手动 挑选 “有 趣 的 ” 矮 
mask = labels agg == cluster 
fig, axes = plt.subplots(1, 15, subplot_ kw={'xticks': (), 'yticks': ()}, 
figsize=(15, 8)) 
cluster_size = np.sum(mask) 
axes[0].set_ylabel("#{}: {}".format(cluster, cluster_size)) 
for image, label, asdf, ax in zip(X_people[mask], y_people[mask], 
labels_agg[mask], axes): 
ax.imshow(image.reshape(image_shape), vmin=0, vmax=1) 
ax.set_title(people.target_ names[label].split()[-1], 
fontdict={'fontsize': 9}) 
for i in range(cluster_size, 15): 
axes[i].set_visible(False) 


Out[86] : 
CLuster sizes agglomerative clustering: 
[58 80 79 40 222 50 55 78 172 28 26 34 14 11 60 66 152 27 
47 31 54 5 8 56 3 5 8 18 22 82 37 89 28 24 41 40 
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图 3-47: 将 艇 的 数量 设置 为 40 时 ， 从 凝聚 聚 类 找到 的 簇 中 挑选 的 图 像 一 一 左 侧 文本 表示 簇 的 编号 
和 簇 中 的 点 的 总 数 
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这 里 聚 类 挑选 出 的 似乎 是 “ 深 色 皮 肤 且 微笑 ”“ 有 领子 的 衬衫 ” “微笑 的 女性 ”“ 萨 达 姆 ” 
和 “高 额头 " 。 如 果 进 一 步 详细 分 析 ， 我 们 还 可 以 利用 树 状 图 找到 这 些 高 度 相 似 的 禾 。 


3.5.5“ 聚 类 方法 小 结 

本 节 的 内 容 表 明 ， 聚 类 的 应 用 与 评估 是 一 个 非常 定性 的 过 程 ， 通 常 在 数据 分 析 的 探索 阶 
段 很 有 帮助 。 我 们 学 习 了 三 种 聚 类 算法 : k 均 值 、DBSCAN 和 凝聚 聚 类 。 这 三 种 算法 都 
可 以 控制 聚 类 的 粒度 (granularity)。k 均值 和 凝聚 聚 类 允许 你 指定 想 要 的 得 的 数量 ， 而 
DBSCAN 允许 你 用 eps 参数 定义 接近 程度 ， 从 而 间接 影响 徐 的 大 小 。 三 种 方法 都 可 以 用 于 
大 型 的 现实 世界 数据 集 ， 都 相对 容易 理解 ， 也 都 可 以 聚 类 成 多 个 禾 。 

每 种 算法 的 优点 稍 有 不 同 。k 均值 可 以 用 簇 的 平均 值 来 表示 化 。 它 还 可 以 被 看 作 一 种 分 解 
方法 ， 每 个 数据 点 都 由 其 徐 中 心 表 示 。DBSCAN 可 以 检测 到 没有 分 配 任 何 徐 的 “噪声 点 ”， 
还 可 以 帮助 自动 判断 徐 的 数量 。 与 其 他 两 种 方法 不 同 ， 它 允许 答 具 有 复杂 的 形状 ， 正 如 我 
们 在 two_moons 的 例子 中 所 看 到 的 那样 。DBSCAN 有 时 会 生成 大 小 差别 很 大 的 得， 这 可 能 
是 它 的 优点 ， 也 可 能 是 缺点 。 凝 聚 聚 类 可 以 提供 数据 的 可 能 划分 的 整个 层次 结构 ， 可 以 通 
过 树 状 图 轻松 查看 。 


3.6 “小 结 与 展望 


本 章 介绍 了 一 系列 无 监督 学 习 算法 ， 可 用 于 探索 性 数据 分 析 和 预 处 理 。 找 到 数据 的 正确 表 
示 对 于 监督 学 习 和 无 监督 学 习 的 成 功 通常 都 至 关 重要 ， 预 处 理 和 分 解 方法 在 数据 准备 中 具 
有 重要 作用 。 


分 解 、 流 形 学 习 和 聚 类 都 是 加 深 数 据 理解 的 重要 工具 ， 在 没有 监督 信息 的 情况 下 ， 也 是 理 
解数 据 的 仅 有 的 方法 。 即 使 是 在 监督 学 习 中 ， 探 索性 工具 对 于 更 好 地 理解 数据 性 质 也 很 重 
要 。 通 常 来 说 ， 很 难 量化 无 监督 算法 的 有 用 性 ， 但 这 不 应 该 妨碍 你 使 用 它们 来 深入 理解 数 
据 。 学 完 这 些 方法 ， 你 就 已 经 掌握 了 机 器 学 习 从 业者 每 天 使 用 的 所 有 必要 的 学 习 算 法 。 


我 们 建议 你 在 scikit-learn 中 包含 的 二 维 玩具 数据 和 现实 世界 数据 集 (比如 digits、iris 
和 cancer 数据 集 ) 上 尝试 聚 类 和 分 解 方法 。 
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估计 器 接口 小 结 
我 们 简要 回顾 一 下 第 2 章 和 第 3 章 介绍 的 API。scikit-tLearn 中 的 所 有 算法 一 一 无 论 
是 预 处 理 、 监 督学 习 还 是 无 监督 学 习 算 法 一 一 都 被 实现 为 类 。 这 些 类 在 scikit-learn 
中 叫 作 估计 器 (estimator) 。 为 了 应 用 算法 ， 你 首先 需要 将 特定 类 的 对 象 实例 化 : 


In[87] : 
from sklearn.linear_model import LogisticRegression 
Logreg = LogisticRegression() 


估计 器 类 包含 算法 ， 也 保存 了 利用 算法 从 数据 中 学 到 的 模型 。 


在 构建 模型 对 象 时 ， 你 应 该 设置 模型 的 所 有 参数 。 这 些 参数 包括 正则 化 、 复 杂 度 控制 、 
要 找到 的 族 的 数量 ， 等 等 。 所 有 估计 器 部 有 fit 方 法， 用 于 构建 模型 。fit 方 法 要 求 
第 一 个 参数 总 是 数据 X， 用 一 个 NumPy 数组 或 SciPy 稀 跌 矩阵 表示 ， 其 中 每 一 行 代表 
一 个 数据 点 。 数 据 X 总 被 假定 为 具有 连续 值 ( 浮 点 数 ) 的 NumPy 数组 或 SciPy 宏 鸡 矩 
阵 。 监 督 算法 还 需要 有 一 个 y 参 数 ， 它 是 一 维 NumPy 数组 ， 包 含 回归 或 分 类 的 目标 值 
( 即 已 知 的 输出 标签 或 响应 ) 。 


在 scikit-learn 中 ,应 用 学 到 的 模型 主要 有 两 种 方法 。 要 想 创建 一 个 新 输出 形式 〈 比 
如 y) 的 预测 ， 可 以 用 predict 方法 。 要 想 创 建 输入 数据 X 的 一 种 新 表示 ， 可 以 用 
transform 方法 。 表 3-1 汇总 了 predict 方法 和 transform 方法 的 使 用 场景 。 

表 3-1: scikit-Learn API 小 结 


estimator.predict(X test) estimator .transform(X_test) 




















回归 降 维 
聚 类 特征 提取 
特征 选择 


此 外 ， 所 有 监督 模型 都 有 score(X_test，y_test) 方法 ， 可 以 评估 模型 。 在 表 3-1 中 ， 
X_train 和 y train 指 的 是 训练 数据 和 训练 标签 ， 而 X_test 和 y_test 指 的 是 测试 数据 
和 测试 标签 (如果 适用 的 话 )。 
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到 目前 为 止 ， 我 们 一 直 假 设 数 据 是 由 浮 点 数组 成 的 三 维 数组 ， 其 中 每 一 列 是 描述 数据 点 的 
连续 特征 (continuous feature)。 对 于 许多 应 用 而 言 ， 数 据 的 收集 方式 并 不 是 这 样 。 一 种 特 
别 常见 的 特征 类 型 就 是 分 类 特征 (categorical feature) ， 也 叫 离 散 特征 (discrete feature)。 
这 种 特征 通常 并 不 是 数值 。 分 类 特征 与 连续 特征 之 间 的 区 别 类 似 于 分 类 和 回归 之 间 的 区 
别 ， 只 是 前 者 在 输入 端 而 不 是 输出 端 。 我 们 已 经 见 过 的 连续 特征 的 例子 包括 像素 明暗 程度 
和 花 的 尺寸 测量 。 分 类 特征 的 例子 包括 产品 的 品牌 、 产 品 的 颜色 或 产品 的 销售 部 门 (图 
书 、 服 装 、 硬 件 )。 这 些 都 是 描述 一 件 产品 的 属性 ， 但 它们 不 以 连续 的 方式 变化 。 一 件 产 
品 要 么 属于 服装 部 门 ， 要 么 属于 图 书 部 门 。 在 图 书 和 服装 之 间 没 有 中 间 部 门 ， 不 同 的 分 类 
之 间 也 没有 顺序 (图 书 不 大 于 服装 也 不 小 于 服装 ， 硬 件 不 在 图 书 和 服装 之 间 ， 等 等 )。 
无 论 你 的 数据 包含 哪 种 类 型 的 特征 ， 数 据 表示 方式 都 会 对 机 器 学 习 模 型 的 性 能 产生 巨大 影 
响 。 我 们 在 第 2 章 和 第 3 章 中 看 到 ， 数 据 缩放 非常 重要 。 换 句 话 说 ， 如 果 你 没有 缩放 数据 
(比如 ， 缩 放 到 单位 方差 )， 那 么 你 用 厘米 还 是 英寸 表示 测量 数据 的 结果 将 会 不 同 。 我 们 在 
第 2 章 中 还 看 到 ， 用 额外 的 特征 扩充 (augment) 数据 也 很 有 帮助 ， 比 如 添加 特征 的 交互 
项 (乘积 ) 或 更 一 般 的 多 项 式 。 


对 于 某 个 特定 应 用 来 说 ， 如 何 找到 最 佳 数据 表示 ， 这 个 问题 被 称 为 特征 工程 (feature 
engineering)， 它 是 数据 科学 家 和 机 器 学 习 从 业者 在 尝试 解决 现实 世界 问题 时 的 主要 任务 之 
一 。 用 正确 的 方式 表示 数据 ， 对 监督 模型 性 能 的 影响 比 所 选择 的 精确 参数 还 要 大 。 


本 章 我 们 将 首先 学 习 分 类 特征 非常 重要 而 又 非常 常见 的 例子 ， 然 后 对 于 特征 和 模型 的 特定 
组 合 给 出 一 些 有 用 的 变换 示例 。 


4.1 分 类 变量 


作为 例子 ， 我 们 将 使 用 美国 成 年 人 收入 的 数据 集 ， 该 数据 集 是 从 1994 年 的 普查 数据 库 中 导 
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出 的 。adult 数据 集 的 任务 是 预测 一 名 工人 的 收入 是 高 于 50 000 美元 还 是 低 于 50 000 美元 。 


这 个 数据 集 的 特征 包括 工人 的 年 龄 、 雇 用 方式 〈 独 立 


教育 水 平 、 性 别 、 每 周 工作 时 长 、 职 业 ， 等 等 。 
表 4-1: adult 数 据 集 的 前 几 个 条 目 





表 4-1 给 





经 营 、 私 营 企 业 员 工 、 政 府 职 员 等 )、 
上 了 该 数据 集中 的 前 几 个 条 目 。 





age workclass education gender hours-per-week occupation income 
0 39 State-gov Bachelors Male 40 Adm-clerical <=50K 
1 50 Self-emp-not-inc ©& Bachelors Male 13 Exec-managerial <=50K 
2 38 Private HS-grad Male 40 Handlers-cleaners <=50K 
3 53 Private 11th Male 40 Handlers-cleaners ”<=50K 
4 28 Private Bachelors Female 40 Prof-specialty <=50K 
5 37 Private Masters Female 40 Exec-managerial <=50K 
6 49 Private 9th Female 16 Other-service <=50K 
7 52 Self-emp-not-inc © HS-grad Male 45 Exec-managerial >50K 
8 31 Private Masters Female 50 Prof-specialty >50K 
9 42 Private Bachelors Male 40 Exec-managerial >50K 
10 37 Private Some-college Male 80 Exec-managerial >50K 


这 个 任务 属于 分 类 任务 ， 两 个 类 别 是 收入 <=56k 和 >56k。 也 可 以 预测 具体 收入 ， 那 样 就 变 





成 了 一 个 回归 任务 。 但 那样 问题 将 变 得 更 加 困难 


























， 而 理解 50K 的 分 界线 本 身 也 很 有 趣 。 


在 这 个 数据 集中 ，age (年 龄 ) 和 hours-per-week (每 周 工作 时 长 ) 是 连续 特征 ， 我 们 知道 


如 何 处 理 这 种 特征 。 但 workclass (工作 类 型 )、 
occupation (职业 ) 都 是 分 类 特征 。 





它们 都 来 




















围 ) ， 表 示 的 是 定性 属性 (而 不 是 数 
首先 ， 假 设 我 们 想 要 在 这 个 数据 上 学 习 一 个 Logistic 回 


量 ) 
星 )。 








Logistic 回归 利用 下 列 公式 进行 预测 ， 预 测 值 为 3: 




















2 wlO] * x[O] + wl1] * [1] + + wip] 














education (教育 程度 )、gender (性 别 )、 











自 一 系列 固定 的 可 能 取 值 ( 而 不 是 一 个 范 











归 分 类 器 。 我 们 在 第 2 章 学 过 ， 


*x[p]+b>0 


其 中 w[i] 和 b 是 从 训练 集中 学 到 的 系数 ，x[] 是 输入 特征 。 当 x 中 是 数字 时 这 个 公式 才 有 


意义 ， 但 如 果 x[2] 是 "Masters" 或 "Bachelors" 的 话 ， 这 个 公式 则 没有 意义 。 显 然 ， 在 应 


用 Logistic 
问题 。 


4.1.1 


N 取 一 编码 (one-out-of-N encoding 
思想 是 将 一 个 分 类 变量 替换 为 一 个 或 多 个 新 特征 








One-Hot 编 码 〈 虚 拟 变量 ) 


到 目前 为 止 ， 表 示 分 类 变量 最 常用 的 方法 就 是 使 用 one-hot 编码 (one-hot-encoding) 或 
)， 也 叫 虚 拟 变 量 (dummy variable) 。 虚 拟 变量 背后 的 








回归 时 ， 我 们 需要 换 一 种 方式 来 表示 数据 。 下 一 节 将 会 说 明 我 们 如 何 解决 这 一 








新 特 和 





FE 取 值 为 0 和 1。 对 于 线性 二 分 类 











(以 及 scikit-learn 中 其 他 所 有 模型 ) 的 公式 而 言 ，0 和 1 这 两 个 值 是 有 意义 的 ， 我 们 可 


以 像 这 样 对 每 个 类 别 引 入 一 个 新 特 行 


























E， 从 而 表示 任意 数量 的 类 别 。 





比如 说 ，workclass 特征 的 可 能 取 值 包括 "Government Employee"、"Private Employee"、 
"Self Employed" 和 "Self Employed Incorporated"。 为 了 编码 这 4 个 可 能 的 取 值 ， 我 
们 创建 了 4 个 新 特征 ， 分 别 叫 作 "Government Employee"、"Private Employee"、"Self 
Employed" 和 "Self Employed Incorporated"。 如 果 一 个 人 的 workclass 取 基 个 值 ， 那 么 对 
应 的 特征 取 值 为 1， 其 他 特征 均 取 值 为 0。 因 此 ， 对 每 个 数据 点 来 说 ，4 个 新 特征 中 只 有 一 
个 的 取 值 为 1。 这 就 是 它 叫 作 one-hot 编码 或 N 取 一 编码 的 原因 。 


其 原理 如 表 4-2 所 示 。 利 用 4 个 新 特征 对 一 个 特征 进行 编码 。 在 机 器 学 习 算 法 中 使 用 此 数 
据 时 ， 我 们 将 会 删除 原始 的 workctLass 特征 ， 仅 保留 0-1 特征 。 


表 4-2: 利用 one-hot 编 码 来 编码 workclass 特 征 












































Self Employed 
workclass Government Employee Private Employee Self Employed 
Incorporated 
Government Employee 1 0 0 0 
Private Employee 0 1 0 0 
Self Employed 0 0 1 0 
Self Employed Incorporated 0 0 0 1 


我 们 使 用 的 one-hot 编码 与 统计 学 中 使 用 的 虚拟 编码 (dummy encoding) 非 
常 相似 ， 但 并 不 完全 相同 。 为 简单 起 见 ， 我 们 将 每 个 类 别 编 码 为 不 同 的 二 元 
特征 。 在 统计 学 中 ， 通 常 将 具有 大 个 可 能 取 值 的 分 类 特征 编码 为 -1 个 特征 
(都 等 于 零 表 示 最 后 一 个 可 能 取 值 ) 。 这 么 做 是 为 了 简化 分 析 (更 专业 的 说 法 
是 ， 这 可 以 避免 使 数据 矩阵 秩 亏 )。 





















































将 数据 转换 为 分 类 变量 的 one-hot 编码 有 两 种 方法 : 一 种 是 使 用 pandas， 一 种 是 使 用 
scikit-learn。 在 写作 本 书 时 ， 使 用 pandas 要 稍微 简单 一 些 ， 所 以 我 们 选择 这 种 方法 。 首 
先 ， 我 们 使 用 pandas 从 逗号 分 隔 值 (CSV) 文件 中 加 载 数 据 : 

In[2]: 


import pandas as pd 
from IPython.display import display 








# 文件 中 没有 包含 列 名 称 的 表 头 ， 因 此 我 们 传人 header=None 
# 然后 在 "names" 中 显 式 地 提供 列 名 称 
data = pd.read_csv( 
"data/adult.data", header=None, index_col=False, 
names=['age', 'workclass', 'fnlwgt', 'education', "education-num' ， 
'marital-status', 'occupation', 'relationship', 'race', 'gender', 
'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 
'income']) 
# 为 了 便于 说 明 ， 我 们 只 选 了 其 中 几 列 
data = data[['age', 'workclass', 'education', 'gender', 'hours-per-week', 
'occupation', 'income']] 
# IPython.display 可 以 在 Jupyter notebook 中 输出 漂亮 的 格式 
display(data.head()) 





























其 结果 见 表 4-3。 
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表 4-3: adult 数 据 集 的 前 5 行 





age workclass education gender hours-per-week ”occupation income 
0 39 State-gov Bachelors Male 40 Adm-clerical <=50K 
1 50 Self-emp-not-inc Bachelors ”Male 13 Exec-managerial <=50K 
2 38 Private HS-grad Male 40 Handlers-cleaners <=50K 
3 ~53 Private 11th Male 40 Handlers-cleaners <=50K 
4 28 Private Bachelors “Female 40 Prof-specialty <=50K 


1. 检查 字符 串 编码 的 分 类 数据 
读 取 完 这 样 的 数据 集 之 后 ， 最 好 先 检 查 每 一 列 是 否 包含 有 意义 的 分 类 数据 。 在 处 理 人 工 
(比如 网 站 用 户 ) 输入 的 数据 时 ， 可 能 没有 固定 的 类 别 ， 拼 写 和 大 小 写 也 存在 差异 ， 因 此 

可 能 需要 预 处 理 。 举 个 例子 ， 有 人 可 能 将 性 别 填 为 “male”( 男 性 )， 有 人 可 能 填 为 “man” 
(男人 )， 而 我 们 希望 能 用 同一 个 类 别 来 表示 这 两 种 输入 。 检 查 列 的 内 容 有 一 个 好 方法 ， 就 
是 使 用 pandas Series (Series 是 DataFrame 中 单列 对 应 的 数据 类 型 ) 的 value_counts 国 
数 ， 以 显示 唯一 值 及 其 出 现 次 数 : 
In[3]: 

print(data.gender .value_counts()) 























Out[3]: 
Male 21790 
Female 10771 
Name: gender, dtype: int64 


可 以 看 到 ， 在 这 个 数据 集中 性 别 刚 好 有 两 个 值 : Mate 和 Female， 这 说 明 数 据 格式 已 经 很 
好 ， 可 以 用 one-hot 编码 来 表示 。 在 实际 的 应 用 中 ， 你 应 该 查看 并 检查 所 有 列 的 值 。 为 简 
洁 起 见 ， 这 里 我 们 将 跳 过 这 一 步 。 

用 pandas 编码 数据 有 一 种 非常 简单 的 方法 ， 就 是 使 用 get_dummies 国 数 。get_dummies 孙 
数 自动 变换 所 有 具有 对 象 类 型 (比如 字符 串 ) 的 列 或 所 有 分 类 的 列 ( 这 是 pandas 中 的 一 个 
特殊 概念 ， 我 们 还 没有 讲 到 ) : 


In[4]: 
print("Original features:\n", list(data.columns), "\n") 
data_dummies = pd.get_dummies(data) 
print("Features after get dummies:\n", list(data dummies.columns)) 











I 

















| 








Out[4] : 
Original features : 
['age', 'workclass', 'education', 'gender', 'hours-per-week', "occupation ' ， 
'income'] 


Features after get_dummies: 

['age', 'hours-per-week', 'workclass_ ?', 'workclass_ Federal-gov', 
'workclass_ Local-gov', 'workclass_ Never-worked', 'workclass_ Private', 
'workclass_ Self-emp-inc', 'workclass_ Self-emp-not-inc', 

'workclass_ State-gov', 'workclass_ Without-pay', 'education_ 10th', 
'education_ 1ith', 'education_ 12th', 'education_ 1st-4th', 





"education Preschool', 'education Prof-school', 'education Some-coLLege ' ， 
"gender Female', 'gender_ Male', "occupation ? ， 

"occupation Adm-clerical', 'occupation_ Armed-Forces ' ， 

"occupation Craft-repair', 'occupation_ Exec-managerial', 

"occupation Farming-fishing', 'occupation Handlers-cleaners', 


"occupation Tech-support', 'occupation_ Transport-moving', 
'income_ <=50K', 'income_ >50K'] 


你 可 以 看 到 ， 连 续 特征 age 和 hours-per-week 没有 发 生变 化 ， 而 分 类 特征 的 每 个 可 能 取 值 
都 被 扩展 为 一 个 新 特征 : 


In[5]: 
data_dummies .head() 














Out[5]: 
age hours- workclass ? Workclass workclass  ... occupation occupation income_ income 

per— Federal- Local-gov Tech— Transport- <=50K >50K 
week gov support moving 

0 39 40 0.0 0.0 0.0 ... 0.0 0.0 1.0 0.0 

1 50 13 0.0 0.0 0.0 ... 0.0 0.0 1.0 0.0 

2 38 40 0.0 0.0 0.0 “0.0 0.0 1.0 0.0 

3 53 40 0.0 0.0 0.0 ... 0.0 0.0 1.0 0.0 

4 28 40 0.0 0.0 0.0 ... 0.0 0.0 1.0 0.0 


5 rows X46 columns 


下 面 我 们 可 以 使 用 values 属性 将 data_dummies 数据 框 (DataFrame) 转换 为 NumPy 数组 ， 
然后 在 其 上 训练 一 个 机 器 学 习 模 型 。 在 训练 模型 之 前 ， 注 意 要 把 目标 变量 (现在 被 编码 为 
两 个 income 列 ) 从 数据 中 分 离 出 来 。 将 输出 变量 或 输出 变量 的 一 些 导出 属性 包含 在 特征 表 
示 中 ， 这 是 构建 监督 机 器 学 习 模 型 时 一 个 非常 常见 的 错误 。 

注意 : pandas 中 的 列 索 引 包 括 范 围 的 结尾 ， 因 此 'age':'occupation_ 
Transport-moving' 中 包括 occupation Transport-moving。 这 与 NumPy 
数组 的 切片 不 同 ， 后 者 不 包括 范围 的 结尾 ， 例 如 np.arange(11)[6:16] 不 包 

括 索引 编号 为 10 的 元 素 。 
























































在 这 个 例子 中 ， 我 们 仅 提 取 包 含 特征 的 列 ， 也 就 是 从 age 到 occupation Transport-moving 
的 所 有 列 。 这 一 范围 包含 所 有 特征 ， 但 不 包含 目标 : 


In[6] : 
features = data_dummies.ix[:, 'age':'occupation_ Transport-moving'] 
# 提取 NumPy 数 组 
X = features.values 
y = data_dummies['income_ >50K'].values 
print("X.shape: {} y.shape: {}".format(X.shape, y.shape)) 
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Out[6] : 
X.shape: (32561, 44) y.shape: (32561,) 


现在 数据 的 表示 方式 可 以 被 scikit-learn 处 理 ， 我 们 可 以 像 之 前 一 样 继 续 下 一 步 : 


In[7]: 
from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train test split(X, y, random_ state=0) 
logreg = LogisticRegression() 
logreg.fit(X_train, y_train) 
print("Test score: {:.2f}".format(logreg.score(X_test, y_test))) 
Out[7]: 
Test score: 0.81 


在 这 个 例子 中 ， 我 们 对 同时 包含 训练 数据 和 测试 数据 的 数据 框 调用 get_ 
dummies。 这 一 点 很 重要 ， 可 以 确保 训练 集 和 测试 集中 分 类 变量 的 表示 方式 
相同 。 

假设 我 们 的 训练 集 和 测试 集 位 于 两 个 不 同 的 数据 框 中 。 如 果 workclass 特 
征 的 "Private Employee" 取 值 没有 出 现在 测试 集中 ， 那 么 pandas 会 认 
为 这 个 特征 只 有 3 个 可 能 的 取 值 ， 因 此 只 会 创建 3 个 新 的 虚拟 特征 。 现 
在 训练 集 和 测试 集 的 特征 个 数 不 相同 ， 我 们 就 无 法 将 在 训练 集 上 学 到 的 
模型 应 用 到 测试 集 上 。 更 糟糕 的 是 ， 假 设 workclass 特征 在 训练 集中 有 
"Government Employee" 和 "Private Employee" 两 个 值 ， 而 在 测试 集中 有 
"Self Employed" 和 "Self Employed Incorporated" 两 个 值 。 在 两 种 情况 
下 ，pandas 都 会 创建 两 个 新 的 虚拟 特征 ， 所 以 编码 后 的 数据 框 的 特征 个 数 
相同 。 但 在 训练 集 和 测试 集中 的 两 个 虚拟 特征 含义 完全 不 同 。 训 练 集中 表示 
"Government Employee" 的 那 一 列 在 测试 集中 对 应 的 是 "Self Employed"。 
如 果 我 们 在 这 个 数据 上 构建 机 器 学 习 模 型 ， 那 么 它 的 表现 会 很 差 ， 因 为 它 认 
为 每 一 列表 示 的 是 相同 的 内 容 (因为 位 置 相同 )， 而 实际 上 表示 的 却 是 非常 
不 同 的 内 容 。 要 想 解决 这 个 问题 ， 可 以 在 同时 包含 训练 数据 点 和 测试 数据 点 
的 数据 框 上 调用 get_dummies， 也 可 以 确保 调用 get_dummies 后 训练 集 和 测 
试 集 的 列 名 称 相 同 ， 以 保证 它们 具有 相同 的 语义 。 



















































































4.1.2 ”数字 可 以 编码 分 类 变量 

在 adult 数据 集 的 例子 中 ， 分 类 变量 被 编码 为 字符 串 。 一 方面 ， 可 能 会 有 拼写 错误 ， 但 另 
一 方面 ， 它 明确 地 将 一 个 变量 标记 为 分 类 变量 。 无 论 是 为 了 便于 存储 还 是 因为 数据 的 收集 
方式 ， 分 类 变量 通常 被 编码 为 整数 。 例 如 ， 假 设 adutt 数据 集中 的 人 口 普查 数据 是 利用 问 
卷 收集 的 ，workclass 的 回答 被 记录 为 0 (在 第 一 个 框 打 勾 )、1 (在 第 二 个 框 打 勾 )、2 (在 
第 三 个 框 打 勾 )， 等 等 。 现 在 该 列 包 含 数字 0 到 8， 而 不 是 像 "Private" 这 样 的 字符 串 。 如 
果 有 人 观察 表示 数据 集 的 表格 ， 很 难 一 眼看 出 这 个 变量 应 该 被 视 为 连续 变量 还 是 分 类 变 


















































如 果 知 道 这 些 数 字 表 示 的 是 就 业 状况 ， 那 么 很 明显 它们 是 不 同 的 状态 ， 不 应 该 











分 类 特征 通常 用 整数 进行 编码 。 它 们 是 数字 并 不 意味 着 它们 必须 被 视 为 连续 
特征 。 一 个 整数 特征 应 该 被 视 为 连续 的 还 是 离散 的 〈one-hot 编码 的 )， 有 了 时 
并 不 明确 。 如 果 在 被 编码 的 语义 之 间 没 有 顺序 关系 (比如 workclass 的 例 
子 )， 那 么 特征 必须 被 视 为 离散 特征 。 对 于 其 他 情况 〈 比 如 五 星 评分 ) ， 哪 种 
编码 更 好 取决 于 具体 的 任务 和 数据 ， 以 及 使 用 哪 种 机 器 学 习 算法 。 
































pandas 的 get_dummies 国 数 将 所 有 数字 看 作 是 连续 的 ， 不 会 为 其 创建 虚拟 变量 。 为 了 解决 
这 个 问题 ， 你 可 以 使 用 scikit-learn 的 OneHotEncoder， 指 定 哪 些 变量 是 连续 的 、 哪 些 变 
量 是 离散 的 ， 你 也 可 以 将 数据 框 中 的 数值 列 转换 为 字符 串 。 为 了 说 明 这 一 点 ， 我 们 创建 一 
个 两 列 的 DataFrame 对 象 ， 其 中 一 列 包含 字符 串 ， 另 一 列 包含 整数 ; 


In[8] : 
# 创建 一 个 DataFrame， 包 含 一 个 整数 特征 和 一 个 分 类 字符 串 特 征 
demo_df = pd.DataFrame({'Integer Feature': [0，1，2，1]， 
'Categorical Feature': ['socks', 'fox', 'socks', 'box']}) 









































display(demo_df) 





Y 


结果 见 表 4-4。 





表 4-4: 包含 分 类 字符 串 特征 和 整数 特征 的 数据 杠 
Categorical Feature Integer Feature 
0 socks 0 
1 fox 1 
2 socks 2 
3 box 1 





使 用 get_dummies 只 会 编码 字符 串 特征 ， 不 会 改变 整数 特征 ， 正 如 表 4-5 所 示 。 


In[9]: 
pd.get_dummies(demo_df) 


表 4-5: 表 4-4 中 数据 的 one-hoi 编 码 版 本 ， 整 数 特征 不 变 


Integer Feature Categorical Feature _ box Categorical Feature fox Categorical Feature_socks 








0 0 0.0 0.0 1.0 
1 1 0.2 1.0 0.0 
2 也 0.0 0.0 1.0 
3 1 1.0 0.0 0.0 














如 果 你 想 为 “Integer Feature” 这 一 列 创建 虚拟 变量 ， 可 以 使 用 columns 参数 显 式 地 给 出 想 
要 编码 的 列 。 于 是 两 个 特征 都 会 被 当 作 分 类 特征 处 理 ( 见 表 4-6) : 
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In[10] : 


demo_df['Integer Feature'] = demo_df['Integer Feature'].astype(str) 
pd.get_dummies(demo_df，coLumns=['Integer Feature', 'Categorical Feature']) 


表 4-6: 对 表 4-4 中 的 数据 做 one-hot 编 码 ， 同 时 编码 整数 特征 和 字符 串 特 征 





Integer Integer Integer Categorical Categorical Categorical 
Feature_0 Feature_1 Feature_2 Feature_box Feature_fox Feature_socks 
0 1.0 0.0 0.0 0.0 0.0 1.0 
1 0.0 1.0 0.0 0.0 1.0 0.0 
2 0.0 0.0 1.0 0.0 0.0 1.0 
3 0.0 1.0 0.0 1.0 0.0 0.0 


4.2 ”分 箱 、 离 散 化 、 线 性 模型 与 树 


数据 表示 的 最 


生 方 法 不 仅 取 决 于 数据 的 语义 ， 还 取决 于 所 使 月 





的 模型 种 类 。 线 性 模型 与 共 





于 树 的 模型 (比如 决策 树 、 梯 度 提 升 树 和 随机 森林 ) 是 两 种 成 员 很 多 同时 又 非常 常用 的 模 





比 ( 见 图 














4-1) : 


归 数 据 集 。 它 只 有 一 个 输入 特征 。 下 面 是 线性 回 


型 ， 它 们 在 处 理 不 同 的 特征 表示 时 就 具有 非常 不 同 的 性 质 。 我 们 


回 到 第 2 章 用 过 的 wave 回 











归 模型 与 决策 树 








回归 在 这 个 数据 集 上 的 对 
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图 4-1: 在 wave 数据 集 上 比较 线性 回归 和 决策 树 


In[11] : 


from 
from 


X， y 
line 


sklearn.linear_model import LinearRegression 
sklearn.tree import DecisionTreeRegressor 


mglearn.datasets.make_wave(n_samples=100) 
np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1) 





reg = DecisionTreeRegressor(min samples_split=3).fit(X, y) 
plt.plot(line, reg.predict(line), label="decision tree") 


reg = LinearRegression().fit(X, y) 
plt.plot(line, reg.predict(line), label="linear regression") 


pltsplotCX[:, Oy Ys "03 C= kK") 
plt.ylabel("Regression output") 
plt.xlabel("Input feature") 

plt. legend(loc="best") 


正如 你 所 知 ， 线 性 模型 只 能 对 线性 关系 建 模 ， 对 于 单个 特征 的 情况 就 是 直线 。 决 策 树 可 以 
构建 更 为 复杂 的 数据 模型 ， 但 这 强烈 依赖 于 数据 表示 。 有 一 种 方法 可 以 让 线性 模型 在 连续 
数据 上 变 得 更 加 强大 ， 就 是 使 用 特征 分 箱 (binning， 也 叫 离 散 化 ， 即 discretization) 将 其 
划分 为 多 个 特征 ， 如 下 所 述 。 
我 们 假设 将 特征 的 输入 范围 (在 这 个 例子 中 是 从 -3 到 3) 划分 成 固定 个 数 的 箱子 (bin)， 
比如 10 个， 那么 数据 点 就 可 以 用 它 所 在 的 箱子 来 表示 。 为 了 确定 这 一 点 ， 我 们 首先 需 
要 定义 箱子 。 在 这 个 例子 中 ， 我 们 在 -3 和 3 之 间 定 义 10 个 均匀 分 布 的 箱子 。 我 们 用 
np.linspace 函数 创建 11 个 元 素 ， 从 而 创建 10 个 箱子 ， 即 两 个 连续 边界 之 间 的 空间 : 
In[12]: 


bins = np.linspace(-3, 3, 11) 
print("bins: {}".format(bins)) 























Out[12]: 

bins: [-3. -2.4 -1.8 -1.2 -0.6 0. O06. L122. T8234 “37 1] 
这 里 第 一 个 箱子 包含 特征 取 值 在 -3 到 -2.4 之 间 的 所 有 数据 点 ， 第 二 个 箱子 包含 特征 取 值 
在 -2.4 到 -1.8 之 间 的 所 有 数据 点 ， 以 此 类 推 。 
接 下 来 ， 我 们 记录 每 个 数据 点 所 属 的 箱子 。 这 可 以 用 np.digitize 函数 轻松 计算 出 来 : 
In[13]: 

which_bin = np.digitize(X, bins=bins) 


print("\nData points:\n", X[:5]) 
print("\nBin membership for data points:\n", which_bin[:5]) 











Out[13] : 
Data points: 
[[-0.753] 
[ 2.704] 
[ 1.392] 
[ 0.592] 
[-2.064]] 


Bin membership for data points: 
[[ 4] 
[10] 
[ 8] 
[ 6] 
[ 2]] 
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我 们 在 这 里 做 的 是 将 wave 数据 集中 单个 连续 输入 特征 变换 为 一 个 分 类 特征 ， 用 于 表示 数 
据点 所 在 的 箱子 。 要 想 在 这 个 数据 上 使 用 scikit-Learn 模型 ， 我 们 利用 preprocessing 模 
块 的 OneHotEncoder 将 这 个 离散 特征 变换 为 one-hot 编码 。0neHotEncoder 实现 的 编码 与 
pandas.get_dummies 相同 ， 但 目前 它 只 适用 于 值 为 整数 的 分 类 变量 : 


In[14]: 
from sklearn.preprocessing import OneHotEncoder 
# 使 用 OneHotEncoder 进 行 变换 
encoder = OneHotEncoder(sparse=False) 
# encoder .fit 找 到 which_bin 中 的 唯一 值 
encoder .fit(which_bin) 
# transform 创 建 one-hot 编 码 
X_binned = encoder.transform(which_bin) 
print(X_binned[:5]) 


















































Out[14] : 

[[ 0. 90. 0. 1. 0. 0. 0. 0. 0. 0.] 

[90. 0. 0. 0. 0. 0. 0. 0. 0. 1.] 

[0. 0. 9. 0. 0. 0. 0. 1. 0. 0.] 

[0. 090. 0. 0. 0. 1. 0. 0. 0. 0.] 

[0. 1. 0. 9. 0. 0. 0. 0. 0. 0.]] 
由 于 我 们 指定 了 10 个 箱子 ， 所 以 变换 后 的 X_binned 数据 集 现在 包含 10 个 特征 : 
In[15]: 


print("X_binned.shape: {}".format(X_binned.shape)) 


Out[15] : 

X_binned.shape: (100, 10) 
下 面 我 们 在 one-hot 编码 后 的 数据 上 构建 新 的 线性 模型 和 新 的 决策 树 模 型 。 结 果 见 
箱子 的 边界 由 黑色 虚线 表示 : 


In[16]: 
line_binned = encoder.transform(np.digitize(line, bins=bins)) 

















/说 








本 23 











reg = LinearRegression().fit(X_binned, y) 
pLt.pLot(Line，reg.predict(Line_binned)，LabeL='Linear regression binned ' ) 


reg = DecisionTreeRegressor(min samples_split=3).fit(X_binned, y) 
plt.plot(line, reg.predict(line_ binned), label='decision tree binned') 
plt.plot(X[:, 0], y, 'o', c='k') 

plt.vlines(bins, -3, 3, linewidth=1, alpha=.2) 

plt. legend(loc="best") 

plt.ylabel("Regression output") 

plt.xlabel("Input feature") 








Regression output 





-3 一 2 一 1 0 2 3 
Input feature 











图 4-2: 在 分 箱 特 征 上 比较 线性 回归 和 决策 树 回 归 


虚线 和 实 线 完全 重合 ， 说 明 线性 回归 模型 和 决策 树 做 出 了 完全 相同 的 预测 。 对 于 每 个 箱 
子 ， 二 者 都 预测 一 个 常数 值 。 因 为 每 个 箱子 内 的 特征 是 不 变 的 ， 所 以 对 于 一 个 箱子 内 的 所 
有 点 ， 任 何 模型 都 会 预测 相同 的 值 。 比 较 对 特征 进行 分 箱 前 后 模型 学 到 的 内 容 ， 我 们 发 
现 ， 线 性 模型 变 得 更 加 灵活 了 ， 因 为 现在 它 对 每 个 箱子 具有 不 同 的 取 值 ， 而 决策 树 模型 的 
灵活 性 降低 了 。 分 箱 特征 对 基于 树 的 模型 通常 不 会 产生 更 好 的 效果 ， 因 为 这 种 模型 可 以 学 
习 在 任何 位 置 划分 数据 。 从 某 种 意义 上 来 看 ， 决 策 树 可 以 学 习 如 何 分 箱 对 预测 这 些 数据 最 
为 有 用 。 此 外 ， 决 策 树 可 以 同时 查看 多 个 特征 ， 而 分 箱 通 常 针 对 的 是 单个 特征 。 不 过 ， 线 
性 模型 的 表现 力 在 数据 变换 后 得 到 了 极 大 的 提高 。 

对 于 特定 的 数据 集 ， 如 果 有 充分 的 理由 使 用 线性 模型 一 一 比如 数据 集 很 大 、 维 度 很 高 ， 但 
有 些 特征 与 输出 的 关系 是 非 线 性 的 一 一 那么 分 箱 是 提高 建 模 能 力 的 好 方法 。 


4.3 ”交互 特征 与 多 项 式 特征 


想 要 丰富 特征 表示 ， 特 别 是 对 于 线性 模型 而 言 ， 另 一 种 方法 是 添加 原始 数据 的 交互 特征 
(interaction feature) 和 多 项 式 特 征 (polynomial feature) 。 这 种 特征 工程 通常 用 于 统计 建 模 ， 
但 也 常用 于 许多 实际 的 机 器 学 习 应 用 中 。 


作为 第 一 个 例子 ， 我 们 再 看 一 次 图 4-2。 线 性 模型 对 wave 数据 集中 的 每 个 箱子 都 学 到 一 个 
常数 值 。 但 我 们 知道 ， 线 性 模型 不 仅 可 以 学 习 偏 移 ， 还 可 以 学 习 和 斜率 。 想 要 向 分 箱 数 据 上 
的 线性 模型 添加 和 斜率， 一 种 方法 是 重新 加 入 原始 特征 (图 中 的 x 轴 )。 这 样 会 得 到 11 维 的 
数据 集 ， 如 图 4-3 所 示 。 

In[17] : 


X_combined = np.hstack([X, X_binned]) 
print(X_combined.shape) 
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Out[17] : 
(100, 11) 


In[18]: 
reg = LinearRegression().fit(X_combined, y) 


Line_combined = np.hstack([line, line_binned]) 
plt.plot(line, reg.predict(line combined), label='linear regression combined') 


for bin in bins: 
plt.plot([bin, bin], [-3, 3], ':', c='k') 


plt. legend(loc="best") 
plt.ylabel("Regression output") 
plt.xlabel("Input feature") 
plt.plot(X[:, 0], y, 'o0', c='k') 





一 一 linear regression combined 


Regression output 





Input feature 











图 4-3: 使 用 分 箱 特征 和 单一 全 局 斜率 的 线性 回归 


在 这 个 例子 中 ， 模 型 在 每 个 箱子 中 都 学 到 一 个 偏 移 ， 还 学 到 一 个 斜率 。 学 到 的 斜率 是 向 下 
的 ， 并且 在 所 有 箱子 中 都 相同 一 一 只 有 一 个 x 轴 特 征 ， 也 就 只 有 一 个 斜率 。 因 为 斜率 在 所 
有 箱子 中 是 相同 的 ， 所 以 它 似 乎 不 是 很 有 用 。 我 们 更 希望 每 个 箱子 都 有 一 个 不 同 的 斜率 | 
为 了 实现 这 一 点 ， 我 们 可 以 添加 交互 特征 或 乘积 特征 ， 用 来 表示 数据 点 所 在 的 箱子 以 及 数 
据点 在 x 轴 上 的 位 置 。 这 个 特征 是 箱子 指示 符 与 原始 特征 的 乘积 。 我 们 来 创建 数据 集 : 
In[19] : 


X_product = np.hstack([X_binned, X * X_binned]) 
print(X_product. shape) 
































Out[19] : 
(100, 20) 





这 个 数据 集 现 在 有 20 个 特征 : 数据 点 所 在 箱子 的 指示 符 与 原始 特征 和 箱子 指示 符 的 乘积 。 
你 可 以 将 乘积 特征 看 作 每 个 箱子 x 轴 特 征 的 单独 副本 。 它 在 箱子 内 等 于 原始 特征 ， 在 其 他 
位 置 等 于 零 。 图 4-4 给 出 了 线性 模型 在 这 种 新 表示 上 的 结果 : 


In[20] : 
reg 





























= LinearRegression().fit(X_product, y) 


Line_product = np.hstack([line_binned, line * line_binned]) 


plt. 


for 


plt. 
plt. 
plt. 
plt 


plot(line, reg.predict(line product), label='linear regression product') 


bin in bins: 
plt.plot([bin, bin], [-3, 3], ':', c='k') 


plot(X[:, 0] ， y， 8975 c='k') 
ylabel("Regression output") 
xlabel("Input feature") 


.legend(loc="best") 








一 一 linear regression product 


Regression output 





一 3 一 2 一 0 2 3 
Input feature 








4-4: 每 个 箱子 具有 不 同 斜率 的 线性 回归 
如 你 所 见 ， 现 在 这 个 模型 中 每 个 箱子 都 有 自己 的 偏 移 和 和 斜率。 


使 用 分 箱 是 扩展 连续 特征 的 一 种 方法 。 另 一 种 方法 是 使 用 原始 特征 的 多 项 式 
(polynomial) 。 对 于 给 定 特征 x， 我 们 可 以 考虑 x ** 2、x ** 3、x ** 4， 等 等 。 这 在 
preprocessing 模块 的 PolynomialFeatures 中 实现 : 


In[21]: 




















from sklearn.preprocessing import PolynomialFeatures 


# 包含 直到 x ** 10 的 多 项 式 : 


# 默认 的 "include_bias=True" 添 加 恒 等 于 1 的 常数 特征 





poly = PolynomialFeatures(degree=10, include bias=False) 
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poLy .fit(X) 
X_poly = poly.transform(X) 


多 项 式 的 次 数 为 10， 因 此 生成 了 10 个 特征 : 


In[22] : 
print("X_poly.shape: {}".format(X_poly.shape)) 


T 





Out[22] : 
X_poly.shape: (100, 10) 
我 们 比较 xX_poly 和 X 的 元 素 : 


In[23] : 
print("Entries of X:\n{}".format(X[:5])) 
print("Entries of X_poly:\n{}".format(X_poly[:5])) 





Out[23] : 
Entries of X: 
[[-0.753] 
[ 2.704] 
[ 1.392] 
[ 0.592] 
[-2.064]] 
Entries of X_poly: 
[[ -0.753 0.567 -0.427 0.321 -0.242 0.182 
-0.137 0.103 -0.078 0.058] 
[ 2.704 T3313 19.777 53.482 144.632 391.125 
1057.714 2860.360 了 7355 汉 32 20918.278] 
[ :392 1.938 2.697 3.754 S5226 7.274 
10.125 14.094 19.618 27.307] 
[ 0.592 0.350 0.207 0.123 0.073 0.043 
0.025 0.015 0.009 0.005] 
上 @ -2.064 4.260 -8.791 18.144 -37.448 77.289 
-159.516 329.5222 -679.478 1402.367]] 
你 可 以 通过 调用 get_feature_names 方法 来 获取 特征 的 语义 ， 给 出 每 个 特征 的 指数 : 
In[24]: 


print("Polynomial feature names:\n{}".format(poly.get feature_names())) 


Out[24] : 

Polynomial feature names : 

['x0' ，'X60^2' ，'Xx0^3' ，'Xx9^4' ，'X9^5' ，'X0^6' ，'X0^7' ，'X0^8' ，'x0^9' ，'Xx9^10 ' ] 
你 可 以 看 到 ，x_poty 的 第 一 列 与 X 完全 对 应 ， 而 其 他 列 则 是 第 一 列 的 需 。 有 趣 的 是 ， 你 可 
以 发 现 有 些 值 非常 大 。 第 二 行 有 大 于 20 000 的 元 素 ， 数 量 级 与 其 他 行 都 不 相同 。 

将 多 项 式 特征 与 线性 回归 模型 一 起 使 用 ， 可 以 得 到 经 典 的 多 项 式 回 归 (polynomial 
regression) 模型 ( 见 图 4-5) : 























In[26] : 
reg = LinearRegression().fit(X_poly, y) 





line_poly = poly.transform( line) 

plt.plot(line, reg.predict(line poly), label='polynomial linear regression') 
plt.plot(X[:, 0], y, 'o0', c='k') 

plt.ylabel("Regression output") 

plt.xlabel("Input feature") 

plt.legend(loc="best") 





Regression output 





-3 一 2 一 0 1 2 3 
Input feature 











4-5: 具有 10 次 多 项 式 特征 的 线性 回归 





如 你 所 见 ， 多 项 式 特 征 在 这 个 一 维 数据 上 得 到 了 非常 平 请 的 拟 含 。 但 高 次 多 项 式 在 边界 上 





或 数据 很 少 的 区 域 可 能 有 极端 的 表现 。 
作为 对 比 ， 下 面 是 在 原始 数据 上 学 到 的 核 SVM 模型 ， 没 有 做 任何 变换 ( 见 


In[26]: 
from sklearn.svm import SVR 











| 








4-6) : 

















for gamma in [1, 10]: 
svr = SVR(gamma=gamma).fit(X, y) 
plt.plot(line, svr.predict(line), label='SVR gamma={}' .format(gamma) ) 


plt.plot(X[:, 0], y, 'o0o', c='k') 
plt.ylabel("Regression output") 
plt.xlabel("Input feature") 
plt.legend(loc="best") 
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Regression output 





-3 一 2 一 1 0 1 过 3 
Input feature 








4-6: 对 于 RBF 核 的 SVM， 使 用 不 同 gamma 参数 的 对 比 


使 用 更 加 复杂 的 模型 ( 即 核 SVM) ， 我 们 能 够 学 到 一 个 与 多 项 式 回归 的 复杂 度 类 似 的 预测 
结果 ， 且 不 需要 进行 显 式 的 特征 变换 。 
我 们 再 次 观察 波士顿 房价 数据 集 ， 作 为 对 交互 特征 和 多 项 式 特征 更 加 实际 的 应 用 。 我 们 在 
第 2 章 已 经 在 这 个 数据 集 上 使 用 过 多 项 式 特征 了 。 现 在 来 看 一 下 这 些 特 征 的 构造 方式 ， 以 
及 多 项 式 特征 的 帮助 有 多 大 。 首 先 加 载 数 据 ， 然 后 利用 MinMaxScaler 将 其 缩放 到 0 和 1 
之 间 : 
In[27]: 
from sklearn.datasets import load_boston 


from sklearn.model_selection import train test_split 
from sklearn.preprocessing import MinMaxScaler 





















































boston = load_boston() 
X_train, X_test, y_train, y_test = train test_split\ 
(boston.data, boston.target, random_state=0) 





# 缩放 数据 
scaler = MinMaxScaler() 

X_train_scaled = scaler.fit transform(X_train) 
X_test_scaled = scaler.transform(X_test) 


下 面 我 们 提取 多 项 式 特 征 和 交互 特征 ， 次 数 最 高 为 2: 


In[28]: 
poly = PolynomialFeatures(degree=2).fit(X_train_scaled) 
X_train_poly = poly.transform(X_train_scaled) 
X_test_poly = poly.transform(X_test_scaled) 
print("X_train.shape: {}".format(X_train.shape)) 
print("X_train_poly.shape: {}".format(X_train_poly.shape)) 




















Out[28] : 

X_train.shape: (379, 13) 

Xx_train_poly.shape: (379, 105) 
原始 数据 有 13 个 特征 ， 现 在 被 扩展 到 105 个 交互 特征 。 这 些 新 特征 表示 两 个 不 同 的 原始 
特征 之 间 所 有 可 能 的 交互 项 ， 以 及 每 个 原始 特征 的 平方 。 这 里 degree=2 的 意思 是 ， 我 们 需 
要 由 最 多 两 个 原始 特征 的 乘积 组 成 的 所 有 特征 。 利 用 get_feature_names 方法 可 以 得 到 输 
入 特征 和 输出 特征 之 间 的 确切 对 应 关系 : 


In[29]: 
print("Polynomial feature names:\n{}".format(poly.get feature_names())) 





这 
这 











Out[29] : 

Polynomial feature names : 

[XO XI 2 XD Xd NOY, "XO XT XB X90. "X10.; 
'x11', 'x12', 'x0^2', 'x0O x1', 'x0O x2', 'x0O x3', 'x©O x4', 'x© x5', 'xQO x6', 
'x© x7', 'x0O x8', 'x© x9', 'x©O x10', 'xQO x11', 'x0© x12', 'x1^2', 'x1 x2', 
XL x3"y XL X44" ; "Xx1 X5 > Xl xX6"y x1 Xl;y XL X8 x1 X99 "x1 X10"; 
x1 X11 Xx1. X12", X22 "Xx2 X35 "X22 X44" “X22 XI "X22 XO "X27", 
'X2. X88 "Xx2 XxX9" y "X22 X10" , ‘Xx2 X11 XxX2 X12 "X32 'X3. X44, Xx3XD, 
'x3 x6', 'x3 x7', 'x3 x8', 'x3 x9', 'x3 x10', 'x3 x1i1', 'x3 x12', 'x4^2', 
‘x4 xX5', "Xx4-X6", "XxX4 X17", "xX4 X8" ,Xx4 X99, “Xx4. X10 LX4 X11's “xX4. X12"; 
‘X52, 95-X6 “XS X77" X5 X88 XS X93 X5 X10" ; “x5 X11's "Xx5 X12"; 
XON2 ss "XO XI. XOKB', XOX “XOXIO ,XO X11 "xX6 X12 XIN, 
XXX8 "XT XO "XT X10 XT XL XI X12 "XIN2™ “X88 X90 TX8 X10"; 
'x8 x11', 'x8 x12', 'x9^2', 'x9 x10', 'x9 x11', 'x9 x12', 'x10^2', 'x10 x11', 
‘x10 x12' ,. "X11A2 "5 "X11 X12:, TXT12^27] 


第 一 个 新 特征 是 常数 特征 ， 这 里 的 名 称 是 "1"。 接 下 来 的 13 个 特征 是 原始 特征 (名称 从 
"x9" 到 "x12")。 然 后 是 第 一 个 特征 的 平方 ("xe^2") 以 及 它 与 其 他 特征 的 组 合 。 


我 们 对 Ridge 在 有 交互 特征 的 数据 上 和 没有 交互 特征 的 数据 上 的 性 能 进行 对 比 : 


In[30]: 

from sklearn.linear_model import Ridge 

ridge = Ridge().fit(X_train_ scaled, y_train) 

print("Score without interactions: {:.3f}".format( 
ridge.score(X_test_scaled, y_test))) 

ridge = Ridge().fit(X_train poly, y_train) 

print("Score with interactions: {:.3f}".format( 
ridge.score(X_test poly, y_test))) 




















Out[30] : 
Score without interactions: 0.621 
Score with interactions: 0.753 


显然 ， 在 使 用 Ridge 时， 交互 特征 和 多 项 式 特征 对 性 能 有 很 大 的 提升 。 但 如 果 使 用 更 加 复 
杂 的 模型 (比如 随机 森林 )， 情 况 会 稍 有 不 同 : 
In[31]: 


from sklearn.ensemble import RandomForestRegressor 
rf = RandomForestRegressor(n_estimators=100).fit(X_train_scaled, y_train) 
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print("Score without interactions: {:.3f}".format( 

rf.score(X_test_ scaled, y_test))) 
rf = RandomForestRegressor(n_estimators=100).fit(X_train poly, y_train) 
print("Score with interactions: {:.3f}".format(rf.score(X_test_poly, y_test))) 


Out[31] : 
Score without interactions: 0.799 
Score with interactions: 0.763 


你 可 以 看 到 ， 即 使 没有 额外 的 特征 ， 随 机 森林 的 性 能 也 要 优 于 Ridge。 添 加 交互 特征 和 多 
项 式 特 征 实际 上 会 略微 降低 其 性 能 。 


4.4 单 变 量 非 线性 变换 


我 们 刚刚 看 到 ， 添 加 特征 的 平方 或 立方 可 以 改进 线性 回归 模型 。 其 他 变换 通常 也 对 变换 某 
些 特征 有 用 ， 特 别 是 应 用 数学 函数 ， 比 如 Log、exp 或 sin。 虽 然 基 于 树 的 模型 只 关注 特征 
的 顺序 ， 但 线性 模型 和 神经 网 络 依赖 于 每 个 特征 的 尺度 和 分 布 。 如 果 在 特征 和 目标 之 间 存 
在 非 线性 关系 ， 那 么 建 模 就 变 得 非常 困难 ， 特 别 是 对 于 回归 问题 。Log 和 exp 函数 可 以 帮 
助 调节 数据 的 相对 比例 ， 从 而 改进 线性 模型 或 神经 网 络 的 学 习 效果 。 我 们 在 第 2 章 中 对 内 
存 价 格 数据 应 用 过 这 种 函数 。 在 处 理 具 有 周期 性 模式 的 数据 时 ，sin 和 cos 函数 非常 有 用 。 


大 部 分 模型 都 在 每 个 特征 〈 在 回归 问题 中 还 包括 目标 值 ) 大 致 遵循 高 斯 分 布 时 表现 最 好 ， 
也 就 是 说 ， 每 个 特征 的 直方 图 应 该 具有 类 似 于 熟悉 的 “ 钟 形 曲 线 ” 的 形状 。 使 用 诸如 log 
和 exp 之 类 的 变换 并 不 稀奇 ， 但 却 是 实现 这 一 点 的 简单 又 有 效 的 方法 。 在 一 种 特别 常见 的 
情况 下 ， 这 样 的 变换 非常 有 用 ， 就 是 处 理 整 数 计数 数据 时 。 计 数 数据 是 指 类 似 “ 用 户 A 多 
长 时 间 登 录 一 次 ? ”这 样 的 特征 。 计 数 不 可 能 取 负 值 ， 并 且 通 常 遵循 特定 的 统计 模式 。 下 
而 我 们 使 用 一 个 模拟 的 计数 数据 集 ， 其 性 质 与 在 自然 状态 下 能 找到 的 数据 集 类 似 。 特 征 全 
都 是 整数 值 ， 而 响应 是 连续 的 : 

In[32]: 

rnd = np.random.RandomState(0) 


X_org = rnd.normal(size=(1000, 3)) 
w = rnd.normal(size=3) 
































































































































X = rnd.poisson(10 * np.exp(X_org)) 
y = np.dot(X_org, w) 


我 们 来 看 一 下 第 一 个 特征 的 前 10 个 元 素 。 它 们 都 是 正 整数 ， 但 除 此 之 外 很 难 找 出 特定 的 
模式 。 
如 果 我 们 计算 每 个 值 的 出 现 次 数 ， 那 么 数值 的 分 布 将 变 得 更 清楚 : 


In[33] : 
print("Number of feature appearances:\n{}".format(np.bincount(X[:, 0]))) 














Out[33]: 
Number of feature appearances: 
[28 38 68 48 61 59 45 56 37 40 35 34 36 26 23 26 27 21 23 23 18 21 10 9 17 
9 7-14 12: YM "3..8' 4 3.5 3 4 2 4 A 和 
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数字 2 似乎 是 最 常见 的 ， 共 
数 快 速 下 降 。 但 也 有 一 些 很 
视 化 。 
In[34] : 

bins = np.bincount(X[:, 0]) 


现 了 68 次 
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出 
恨 大 的 数字 ， 比 如 134 
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(bincount 始终 从 0 开始 )， 








plt.bar(range(len(bins)), bins, color='w') 


plt.ylabel("Number of appearances") 
plt.xlabel("Value") 
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更 大 数字 的 出 现 次 


出 现 了 2 次 。 我 们 在 图 4-7 中 将 计数 可 





Number of appearances 














图 4-7: X[:，9] 特征 取 值 的 直方 图 


特征 x[:，1] 和 Xx[:，2] 具有 类 似 的 性 质 。 这 种 类 型 的 数值 分 布 〈 许 多 较 小 的 值 和 一 些 非 


常 大 的 值 ) 在 实践 中 非常 常见 。? 但 大 多 数 线性 模型 无 法 很 好 地 处 到 


合 一 个 岭 回归 模型 : 








In[35] : 




















from sklearn.linear_model import Ridge 
X_train, X_test, y_train, y_test = train test split(X, y, random state=0) 
score = Ridge().fit(X_ train, y_train).score(X_test, y_test) 
print("Test score: {:.3f}".format(score)) 


Out[35]: 
Test score: 0.622 








1: 这 里 134 实际 的 出 现 次 数 是 0, 但 $4 和 85 的 
这 是 泊 松 分 布 ， 对 计数 数据 相当 重要 。 


一 
| 














这 种 数 和 





有 现 次 数 是 2， 作 者 想 要 表达 的 意思 是 疫 错 的 。 一 一 译 者 诗 


中 。 我 们 答 试 拟 
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你 可 以 从 相对 较 小 的 R 分 数 中 看 出 ，Ridge 无 法 真正 捕捉 到 Xx 和 y 之 间 的 关系 。 不 过 应 用 
对 数 变换 可 能 有 用 。 由 于 数据 取 值 中 包括 0 (对 数 在 0 处 没有 定义 ) ， 所 以 我 们 不 能 直接 应 
用 Log， 而 是 要 计算 log(X + 1) 

In[36]: 


Xx_train Log = np.log(X_train + 1) 
X_test_Log = np.Log(X_test + 1) 


变换 之 后 ， 数 据 分 布 的 不 对 称 性 变 小 ， 也 不 再 有 非常 大 的 异常 值 ( 见 图 4-8) : 


In[37]: 
plt.hist(X_train log[:, 0], bins=25, color='gray') 
plt.ylabel("Number of appearances") 
plt.xlabel("Value") 
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图 4-8: 对 X[:，9] 特征 取 值 进行 对 数 变 换 后 的 直方 图 


在 新 数据 上 构建 一 个 岭 回归 模型 ， 可 以 得 到 更 好 的 拟 合 : 


In[38] : 
score = Ridge().fit(X_ train log, y_train).score(X_ test log, y_test) 
print("Test score: {:.3f}".format(score)) 





Out[38]: 
Test score: 0.875 


为 数据 集 和 模型 的 所 有 组 合 寻找 最 佳 变换 ， 这 在 某 种 程度 上 是 一 门 艺术 。 在 这 个 例子 中 ， 
所 有 特征 都 具有 相同 的 性 质 ， 这 在 实践 中 是 非常 少见 的 情况 。 通 常 来 说 ， 只 有 一 部 分 特征 
应 该 进行 变换 ， 有 时 每 个 特征 的 变换 方式 也 各 不 相同 。 前 面 提 到 过 ， 对 基于 树 的 模型 而 
言 ， 这 种 变换 并 不 重要 ， 但 对 线性 模型 来 说 可 能 至 关 重 要 。 对 回归 的 目标 变量 y 进行 变换 








有 时 也 是 一 个 好 主意 。 尝 试 预 测 计数 (比如 订单 数量 ) 是 一 项 相当 常见 的 任务 ， 而 且 使 用 
Log(y + 1) 变换 也 往往 有 用 。” 


从 前 面 的 例子 中 可 以 看 出 ， 分 箱 、 多 项 式 和 交互 项 都 对 模型 在 给 定数 据 集 上 的 性 能 有 很 大 
影响 ， 对 于 复杂 度 较 低 的 模型 更 是 这 样 ， 比 如 线性 模型 和 朴素 贝 叶 斯 模型 。 与 之 相反 ， 基 
于 树 的 模型 通常 能 够 自己 发 现 重 要 的 交互 项 ， 大 多 数 情况 下 不 需要 显 式 地 变换 数据 。 其 他 
模型 ， 比 如 SVM、 最 近邻 和 神经 网 络 ， 有 时 可 能 会 从 使 用 分 箱 、 交 互 项 或 多 项 式 中 受益 ， 
但 其 效果 通常 不 如 线性 模型 那么 明显 。 


4.5 自动 化 特征 选择 


有 了 这 么 多 种 创建 新 特征 的 方法 ， 你 可 能 会 想 要 增 大 数据 的 维度 ， 使 其 远大 于 原始 特征 的 
数量 。 但 是 ,添加 更 多 特征 会 使 所 有 模型 变 得 更 加 复杂 ， 从 而 增 大 过 拟 合 的 可 能 性 。 在 添 
加 新 特征 或 处 理 一 般 的 高 维 数据 集 时 ， 最 好 将 特征 的 数量 减少 到 只 包含 最 有 用 的 那些 特 
征 ， 并 删除 其 余 特 征 。 这 样 会 得 到 泛 化 能 力 更 好 、 更 简单 的 模型 。 但 你 如 何 判 断 每 个 特征 
的 作用 有 多 大 呢 ? 有 三 种 基本 的 策略 : 单 变量 统计 (univariate statistics)、 基 于 模型 的 选择 
(model-based selection) 和 和 迭代 选择 (iterative selection)。 我 们 将 详细 讨论 这 三 种 策略 。 所 
有 这 些 方法 都 是 监督 方法 ， 即 它们 需要 目标 值 来 拟 合 模型 。 这 也 就 是 说 ， 我 们 需要 将 数据 
划分 为 训练 集 和 测试 集 ， 并 只 在 训练 集 上 拟 合 特征 选择 。 


4.5.1 单 变量 统计 
在 单 变量 统计 中 ， 我 们 计算 每 个 特征 和 目标 值 之 间 的 关系 是 否 存 在 统计 显著 性 ， 然 后 选 
择 具 有 最 高 置信 和 度 的 特征 。 对 于 分 类 问题 ， 这 也 被 称 为 方差 分 析 (analysis of variance， 
ANOVA)。 这 些 测 试 的 一 个 关键 性 质 就 是 它们 是 单 变量 的 (univariate)， 即 它们 只 单独 考 
虑 每 个 特征 。 因 此 ， 如 果 一 个 特征 只 有 在 与 男 一 个 特征 合并 时 才 具 有 信息 量 ， 那 么 这 个 特 
征 将 被 舍弃 。 单 变量 测试 的 计算 速度 通常 很 快 ， 并 且 不 需要 构建 模型 。 另 一 方面 ， 它 们 完 
全 独立 于 你 可 能 想 要 在 特征 选择 之 后 应 用 的 模型 。 
想 要 在 scikit-learn 中 使 用 单 变量 特征 选择 ， 你 需要 选择 一 项 测试 一 一 对 分 类 问题 通常 
是 f_classif (默认 值 )， 对 回归 问题 通常 是 f_regression 一 一 然后 基于 测试 中 确定 的 p 值 
来 选择 一 种 舍弃 特征 的 方法 。 所 有 舍弃 参数 的 方法 都 使 用 国 值 来 舍弃 所 有 值 过 大 的 特征 
(意味 着 它们 不 可 能 与 目标 值 相关 )。 计 算 闵 值 的 方法 各 有 不 同 ， 最 简单 的 是 SelectkBes 
和 SelectPercentile， 前 者 选择 固定 数量 的 k 个 特征 ， 后 者 选择 固定 百分比 的 特征 。 我 人 
将 分 类 的 特征 选择 应 用 于 cancer 数据 集 。 为 了 使 任务 更 难 一 点 ， 我 们 将 向 数据 中 添加 一 此 
没有 信息 量 的 噪声 特征 。 我 们 期 望 特征 选择 能 能 够 识别 没有 信息 量 的 特征 并 删除 它们 : 
In[39] : 

from sklearn.datasets import Load_breast_cancer 


from sklearn.feature_selection import SelectPercentile 
from sklearn.model_selection import train_test_spLit 
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注 3: 这 是 对 泊 松 分 布 非常 粗略 的 近似 ， 而 从 概率 的 角度 来 看 ， 这 是 正确 的 解决 方法 。 
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cancer = Load_breast_cancer() 


# 获得 确定 性 的 随机 数 

rng = np.random.RandomState(42) 

noise = rng.normal(size=(len(cancer.data), 50)) 
# 向 数据 中 添加 噪声 特征 
# 前 36 个 特征 来 自 数据 集 ， 后 56 个 是 噪声 
X_w_noise = np.hstack([cancer.data, noise]) 














X_train, X_test, y_train, y_test = train test_ split( 
X_w_noise, cancer.target, random_state=0, test_size=.5) 

# 使 用 f_classif (默认 值 ) 和 SelectPercentile 来 选择 50% 的 特征 

select = SelectPpercentile(percentile=50) 

select.fit(X_ train, y_train) 

# 对 训练 集 进 行 变换 


X_train_selected = select.transform(X_train) 

















print("X_train.shape: {}".format(X_train.shape)) 
print("X_train_selected.shape: {}".format(X_train_ selected.shape)) 


Out[39] : 


X_train.shape: (284, 80) 
X_train_selected.shape: (284, 40) 


如 你 所 见 ， 特 征 的 数量 从 80 减 少 到 40 (原始 特征 数量 的 50%)。 我 们 可 以 用 get_ 
support 方法 来 查看 哪些 特征 被 选中 ， 它 会 返回 所 选 特征 的 布尔 遮 罩 (mask) (其 可 视 化 






































见 图 4-9) : 
In[40] : 
mask = seLect.get_support() 
print(mask) 
# 将 庶 黑 可 视 化 一 一 黑色 为 True， 白 色 为 False 
plt.matshow(mask.reshape(1, -1), cmap='gray_r') 
plt.xlabel("Sample index") 
Out[40] : 
[ True True True True True True True True True False True False 
True True True True True True False False True True True True 
True True True True True True False False False True False True 
False False True False False False False True False False True False 
False True False True False False False False False False True False 
True False False False False True False True False False False False 
True True False True False False False Falsel] 
0 10 20 30 40 50 60 70 
WU 国 国 Ng HS 硬 加 到 IN | 面 面 | 加 | 
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4-9: SelectPercentile 选择 的 特征 


你 可 以 从 遮 单 的 可 视 化 中 看 出 ， 大 多 数 所 选择 的 特征 都 是 原始 特征 ， 并 且 大 多 数 噪声 特征 
都 已 被 删除 。 但 原始 特征 的 还 原 并 不 完美 。 我 们 来 比较 Logistic 回归 在 所 有 特征 上 的 性 能 
与 仅 使 用 所 选 特征 的 性 能 : 











In[41] : 
from sklearn.linear_model import LogisticRegression 


# 对 测试 数据 进行 变换 


X_test_selected = select.transform(X_test) 


lr = LogisticRegression() 
lr.fit(X_train, y_train) 
print("Score with all features: {:.3f}".format(lr.score(X_ test, y_test))) 
lr.fit(X_train_selected, y_train) 
print("Score with only selected features: {:.3f}".format( 
lr.score(X_test_selected, y_test))) 
Out[41] : 
Score with all features: 0.930 
Score with onLy selected features: 0.940 


在 这 个 例子 中 ， 删 除 噪声 特征 可 以 提高 性 能 ， 即 使 丢失 了 某 些 原始 特征 。 这 是 一 个 非常 简 
单 的 假想 示例 ， 在 真实 数据 上 的 结果 要 更 加 复杂 。 不 过 ， 如 果 特 征 量 太 大 以 至 于 无 法 构建 
模型 ， 或 者 你 怀疑 许多 特征 完全 没有 信息 量 ， 那 么 单 变量 特征 选择 还 是 非常 有 用 的 。 


4.5.2 ”基于 模型 的 特征 选择 


基于 模型 的 特征 选择 使 用 一 个 监督 机 器 学 习 模型 来 判断 每 个 特征 的 重要 性 ， 并 且 仅 保留 最 
重要 的 特征 。 用 于 特征 选择 的 监督 模型 不 需要 与 用 于 最 终 监督 建 模 的 模型 相同 。 特 征 选 择 
模型 需要 为 每 个 特征 提供 某 种 重要 性 度量 ， 以 便 用 这 个 度量 对 特征 进行 排序 。 决 策 树 和 基 
于 决策 树 的 模型 提供 了 feature_importances_ 属性 ， 可 以 直接 编码 每 个 特征 的 重要 性 。 线 
性 模型 系数 的 绝对 值 也 可 以 用 于 表示 特征 重要 性 。 正 如 我 们 在 第 2 章 所 见 ，L1 惩罚 的 线性 
模型 学 到 的 是 稀 玻 系数 ， 它 只 用 到 了 特征 的 一 个 很 小 的 子 集 。 这 可 以 被 视 为 模型 本 身 的 一 
种 特征 选择 形式 ， 但 也 可 以 用 作 另 一 个 模型 选择 特征 的 预 处 理 步 又 。 与 单 变 量 选择 不 同 ， 
基于 模型 的 选择 同时 考虑 所 有 特征 ， 因 此 可 以 获取 交互 项 (如果 模型 能 够 获取 它们 的 话 )。 
要 想 使 用 基于 模型 的 特征 选择 ， 我 们 需要 使 用 SelectFromModel 变换 器 : 


In[42] : 
from sklearn.feature_selection import SelectFromModel 
from sklearn.ensemble import RandomForestClassifier 
select = SelectFromModel( 
RandomForestClassifier(n_estimators=100, random_state=42), 
threshold="median") 


SelectFromModel 类 选 出 重要 性 度量 (由 监督 模型 提供 ) 大 于 给 定 阔 值 的 所 有 特征 。 为 了 得 
到 可 以 与 单 变量 特征 选择 进行 对 比 的 结果 ， 我 们 使 用 中 位 数 作为 赋 值 ， 这 样 就 可 以 选择 一 
半 特 征 。 我 们 用 包含 100 棵 树 的 随机 森林 分 类 器 来 计算 特征 重要 性 。 这 是 一 个 相当 复杂 的 
模型 ， 也 比 单 变量 测试 要 强大 得 多 。 下 面 我 们 来 实际 拟 合 模型 : 
In[43] : 

select.fit(X_train, y_train) 

Xx_train 11 = select.transform(X_train) 


print("X_train.shape: {}".format(X_train.shape)) 
print("X_train_ li.shape: {}".format(X_train_l1.shape)) 
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Out[43] : 
X_train.shape: (284，80) 
Xx_train_li.shape: (284, 40) 


我 们 可 以 再 次 查看 选中 的 特征 ( 见 图 4-10) : 


In[44]: 
mask = select.get_ support() 
# 将 庶 罩 可视化 一 一 黑色 为 True， 白 色 为 False 
plt.matshow(mask.reshape(1, -1), cmap='gray_r') 
plt.xlabel("Sample index") 
































Sample index 








4-10: 使 用 RandomForestClassifier 的 SelectFromModel 选择 的 特征 


这 次 ， 除 了 两 个 原始 特征 ， 其 他 原始 特征 都 被 选中 。 由 于 我 们 指定 选择 40 个 特征 ， 所 以 














也 选择 了 一 些 噪声 特征 。 我 们 来 看 一 下 甚 性能: 
In[45] : 
X_test_L1 = select.transform(X_test) 








score = LogisticRegression().fit(X_ train 1l1, y_train).score(X_ test 11, y_test) 


print("Test score: {:.3f}".format(score)) 


Out[45] : 
Test score: 0.951 


利用 更 好 的 特征 选择 ， 性 能 也 得 到 了 提高 。 


4.5.3 ”和 迭代 特征 选择 


在 单 变量 测试 中 ， 我 们 没有 使 用 模型 ， 而 在 基于 模型 的 选择 中 ， 我 们 使 用 了 单个 模型 来 选 




















择 特 征 。 在 迭代 特征 选择 中 ， 将 会 构建 一 系列 模型 ， 每 个 模型 都 使 用 不 同 数量 的 特征 。 有 








两 种 基本 方法 : 开始 时 没有 特征 ， 然 后 逐个 添加 特征 ， 直 到 满足 某 个 终止 条 件 ， 或 者 从 所 











有 特征 开始 ， 然 后 逐个 删除 特征 ， 直 到 满足 某 个 终止 条 件 。 











由 于 构建 了 一 系列 模型 ， 所 





以 这 些 方法 的 计算 成 本 要 比 前面 讨 论 过 的 方法 更 高 。 其 中 一 种 特殊 方法 是 递归 特征 消除 
(recursive feature elimination，RFE)， 它 从 所 有 特征 开始 构建 模型 ， 并 根据 模型 舍弃 最 不 重 
要 的 特征 ， 然 后 使 用 除 被 舍弃 特征 之 外 的 所 有 特征 来 构建 一 个 新 模型 ， 如 此 继续 ， 直 到 仅 
剩 下 预 设 数 量 的 特征 。 为 了 让 这 种 方法 能 够 运行 ， 用 于 选择 的 模型 需要 提供 某 种 确定 特征 
重要 性 的 方法 ， 正 如 基于 模型 的 选择 所 做 的 那样 。 下 面 我 们 使 用 之 前 用 过 的 同一 个 随机 森 





























林 模 型 ， 得 到 的 结果 如 图 4-11 所 示 : 


In[46] : 
from sklearn.feature_selection import RFE 


select = RFE(RandomForestClassifier(n_estimators=100, random_state=42),， 


n_features_to_select=40) 








select.fit(X_train, y_train) 

# 将 选中 的 特征 可 视 化 : 

mask = select.get_support() 
plt.matshow(mask.reshape(1, -1), cmap='gray_r') 
plt.xlabel("Sample index") 

















Sample index 











图 4-11: 使 用 随机 森林 分 类 器 模型 的 递归 特征 消除 选择 的 特征 


与 单 变量 选择 和 基于 模型 的 选择 相 比 ， 选 代 特 征 选择 的 结果 更 好 ， 但 仍然 漏 掉 了 一 个 特 
征 。 运 行 上 述 代 码 需要 的 时 间 也 比 基 于 模型 的 选择 长 得 多 ， 因 为 对 一 个 随机 森林 模型 训练 
了 40 次 ， 每 运行 一 次 删除 一 个 特征 。 我 们 来 测试 一 下 使 用 REFE 做 特征 选择 时 Logistic 回 
归 模 型 的 精度 : 

In[47]: 


X_train_rfe= select.transform(X_train) 
X_test_rfe= select.transform(X_test) 




















score = LogisticRegression().fit(X train rfe, y_train).score(X_ test rfe, y_test) 
print("Test score: {:.3f}".format(score)) 


Out[47] : 
Test Score: 0.951 
我 们 还 可 以 利用 在 RFE 内 使 用 的 模型 来 进行 预测 。 这 仅 使 用 被 选中 的 特征 集 : 


In[48] : 
print("Test score: {:.3f}".format(select.score(X_test, y_test))) 








Out[48] : 
Test Score: 0.951 


这 里 ， 在 RFE 内 部 使 用 的 随机 森林 的 性 能 ， 与 在 所 选 特征 上 训练 一 个 Logistic 回归 模型 得 
到 的 性 能 相同 。 换 句 话说， 只 要 我 们 选择 了 正确 的 特征 ， 线 性 模型 的 表现 就 与 随机 森林 一 
样 好 。 
如 采 你 不 确定 何 时 选择 使 用 哪些 特征 作为 机 器 学 习 算 法 的 输入 ， 那 么 自动 化 特征 选择 可 能 
特别 有 用 。 它 还 有 助 于 减少 所 需要 的 特征 数量 ， 加 快 预 测速 度 ， 或 允许 可 解释 性 更 强 的 模 
型 。 在 大 多 数 现实 情况 下 ， 使 用 特征 选择 不 太 可 能 大 幅 提 升 性 能 ， 但 它 仍 是 特征 工程 工具 
箱 中 一 个 非常 有 价值 的 工具 。 


IE * 
4.6 ”利用 专家 知识 
对 于 特定 应 用 来 说 ， 在 特征 工程 中 通常 可 以 利用 专家 知识 (expert knowledge)。 虽 然 在 许 
多 情况 下 ， 机 器 学 习 的 目的 是 避免 创建 一 组 专家 设计 的 规则 ， 但 这 并 不 意味 着 应 该 舍弃 该 
应 用 或 该 领域 的 先 验 知 识 。 通 常 来 说 ， 领 域 专 家 可 以 帮助 找 出 有 用 的 特征 ， 其 信息 量 比 数 
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据 原始 表示 要 大 得 多 。 想 象 一 下 ， 你 在 一 家 旅行 社工 作 ， 想 要 预测 机 票 价格 。 假 设 你 有 价 
格 以 及 日 期 、 航 空 公 司 、 出 发 地 和 目的 地 的 记录 。 机 器 学 习 模 型 可 能 从 这 些 记 录 中 构建 一 
个 相当 不 错 的 模型 ， 但 可 能 无 法 学 到 机 票 价格 中 的 某 些 重要 因素 。 例 如 ， 在 度假 高 峰 月 份 
和 假日 期 间 ， 机 票 价格 通常 更 高 。 虽 然 某 些 假日 的 日 期 是 固定 的 〈 比 如 圣诞 节 )， 甚 影响 
可 以 从 日 期 中 学 到 ， 但 其 他 假日 的 日 期 可 能 取决 于 月 相 《〈 比 如 光明 节 和 复活 节 )， 或 者 由 
官方 规定 (比如 学 校 放 假 )。 如 果 每 个 航班 都 只 使 用 公历 记录 日 期 ， 则 无 法 从 数据 中 学 到 
这 些 事件 。 但 添加 一 个 特征 是 很 简单 的 ， 其 中 编码 了 一 个 航班 在 公休 假日 或 学 校 假期 的 之 
前 、 之 中 还 是 之 后 。 利 用 这 种 方法 可 以 将 关于 任务 属性 的 先 验 知识 编码 到 特征 中 ， 以 辅助 
机 器 学 习 算法 。 添 加 一 个 特征 并 不 会 强制 机 器 学 习 算 法 使 用 它 ， 即 使 最 终 发 现 假日 信息 不 
包含 关于 机 票 价格 的 信息 ， 用 这 一 信息 来 扩充 数据 也 不 会 有 什么 害处 。 
下 面 我 们 来 看 一 个 利用 专家 知识 的 特例 一 一 虽然 在 这 个 例子 中 ， 对 这 些 专 家 知识 更 正确 的 
叫 法 应 该 是 “常识 "。 任 务 是 预测 在 Andreas 家 门口 的 自行 车 出 租 。 
在 纽约 ，Citi Bike 运营 着 一 个 带 有 付费 系统 的 自行 车 租赁 站 网 络 。 这 些 站 点 遍布 整个 城市 ， 
提供 了 一 种 方便 的 交通 方式 。 自 行车 出 租 数 据 以 匿名 形式 公开 (https://www.citibikenyc. 
com/system-data) ， 并 用 各 种 方法 进行 了 分 析 。 我 们 想 要 解决 的 任务 是 ， 对 于 给 定 的 日 期 和 
时 间 ， 预 测 有 多 少 人 将 会 在 Andreas 的 家 门口 租 一 辆 自行 车 一 一 这 样 他 就 知道 是 否 还 有 自 
行车 留 给 他 。 
我 们 首先 将 这 个 站 点 2015 年 8 月 的 数据 加 载 为 一 个 pandas 数据 框 。 我 们 将 数据 重新 采样 
为 每 3 小 时 一 个 数据 ， 以 得 到 每 一 天 的 主要 趋势 : 
In[49]: 

citibike = mglearn.datasets.load citibike() 













































































In[50]: 
print("Citi Bike data:\n{}".format(citibike.head())) 


Out[50]: 

Citi Bike data: 
starttime 

2015-08-01 00:00:00 3.0 
2015-08-01 03:00:00 0.0 
2015-08-01 06:00:00 9.0 
2015-08-01 09:00:00 41.0 
2015-08-01 12:00:00 39.0 

Freq: 3H, Name: one, dtype: float64 


下 面 这 个 示例 给 出 了 整个 月 租车 数量 的 可 视 化 (图 4-12) : 


In[51]: 

plt.figure(figsize=(10, 3)) 

xticks = pd.date_range(start=citibike.index.min(), end=citibike.index.max(), 
freq='D') 

plt.xticks(xticks, xticks.strftime("%a %m-%d"), rotation=90, ha="left") 

plt.plot(citibike, linewidth=1) 

plt.xlabel("Date") 

plt.ylabel("Rentals") 
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图 4-12: 对 于 选 定 的 Citi Bike 站 点 ， 自 行车 出 租 数量 随时 间 的 变化 





观察 此 数据 ， 我 们 可 以 清楚 地 区 分 每 24 小 时 中 的 白天 和 夜间 。 工 作 日 和 周末 的 模式 似乎 
也 有 很 大 不 同 。 在 对 这 种 时 间 序 列 上 的 预测 任务 进行 评估 时 ， 我 们 通常 希望 从 过 去 学 习 并 
预测 未 来 。 也 就 是 说 ， 在 划分 训练 集 和 测试 集 的 时 候 ， 我 们 希望 使 用 某 个 特定 日 期 之 前 的 
所 有 数据 作为 训练 集 ， 该 日 期 之 后 的 所 有 数据 作为 测试 集 。 这 是 我 们 通常 使 用 时 间 序 列 预 
测 的 方式 : 已 知 过 去 所 有 的 出 租 数 据 ， 我 们 认为 明天 会 发 生 什 么 ?我 们 将 使 用 前 184 个 数 
据点 (对 应 前 23 天 ) 作为 训练 集 ， 剩 余 的 64 个 数据 点 〈 对 应 剩余 的 8 天 ) 作为 测试 集 。 


在 我 们 的 预测 任务 中 ， 我 们 使 用 的 唯一 特征 就 是 某 一 租车 数量 对 应 的 日 期 和 时 间 。 因 此 输 
入 特征 是 日 期 和 时 间 ， 比 如 2015-98-91 690:60:00， 而 输出 是 在 接 下 来 3 小 时 内 的 租车 数量 
(根据 我 们 的 DataFrame， 在 这 个 例子 中 是 3)。 


在 计算 机 上 存储 日 期 的 常用 方式 是 使 用 POSIX 时 间 (这 有 些 令 人 意外 )， 它 是 从 1970 年 1 
月 1 日 00:00:00 (也 就 是 Unix 时 间 的 起 点 ) 起 至 现在 的 总 秒 数 。 首 先 ， 我 们 可 以 尝试 使 用 
这 个 单一 整数 特征 作为 数据 表示 : 

In[52]: 

# 提取 目标 值 (租车 数量 ) 

y = citibike.values 

# 利用 "%s" 将 时 间 转 换 为 POSIX 时 间 


X = citibike.index.strftime("%s").astype("int").reshape(-1, 1) 






































我 们 首先 定义 一 个 函数 ， 它 可 以 将 数据 划分 为 训练 集 和 测试 集 ， 构 建 模 型 并 将 结果 可 视 化 : 
In[54]: 


# 使 用 前 184 个 数据 点 用 于 训练 ， 剩 余 的 数据 点 用 于 测试 
n_train = 184 

















# 对 给 定 特征 集 上 的 回归 进行 评估 和 作 图 的 函数 
def eval_on_features(features, target, regressor): 
# 将 给 定 特征 划分 为 训练 集 和 测试 集 
X_train, X_test = features[:n_train], features[n_train:] 


# 同样 划分 目标 数组 
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y_train, y_test = target[:n_train], target[n_train:] 

regressor .fit(X_train, y_train) 

print("Test-set R^2: {:.2f}".format(regressor.score(X_test, y_test))) 
y_pred = regressor.predict(X_test) 

y_pred_train = regressor.predict(X_train) 

plt.figure(figsize=(10, 3)) 


plt.xticks(range(0, len(X), 8), xticks.strftime("%a %m-%d"), rotation=90, 
ha="left") 


plt.plot(range(n_train), y_train, label="train") 
plt.plot(range(n_train, len(y_test) + nNn_train), y_test, '-', label="test") 
plt.plot(range(n_train), y_pred train, '--', label="prediction train") 


plt.plot(range(n_train, len(y_test) + nNn_train), y_pred, '--" 
label="prediction test") 

plt.legend(loc=(1.01, 0)) 

plt.xlabel("Date") 

plt.ylabel("Rentals") 


3» 

















我 们 之 前 看 到 ， 随 机 森林 需要 很 少 的 数据 预 处 理 ， 因 此 它 似乎 很 适合 作为 第 一 个 模型 。 我 
们 使 用 POSIX 时 间 特 征 Xx， 并 将 随机 森林 回归 传 和 我 们 的 eval_on_features 函数 。 结 果 如 
图 4-13 所 示 。 


In[55]: 
from sklearn.ensemble import RandomForestRegressor 


regressor = RandomForestRegressor(n_estimators=100, random_state=0) 
plt.figure() 


eval_on_features(X, y, regressor) 




















Out[55]: 
Test-set R^2: -0.04 
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4-13: 随机 森林 仅 使 用 POSIX 时 间 做 出 的 预测 





在 训练 集 上 的 预测 结果 相当 好 ， 这 符合 随机 森林 通常 的 表现 。 但 对 于 测试 集 来 说 ， 预 测 结 
果 是 一 条 常数 直线 。R” 为 -0.04， 说 明 我 们 什么 都 没有 学 到 。 发 生 了 什么 ? 

问题 在 于 特征 和 随机 森林 的 组 合 。 测 试 集中 POSIX 时 间 特 征 的 值 超出 了 训练 集中 特征 取 值 
的 范围 : 测试 集中 数据 点 的 时 间 改 要 晚 于 训练 集中 的 所 有 数据 点 。 树 以 及 随机 森林 无 法 外 
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推 (extrapolate) 到 训练 集 之 外 的 特征 范围 。 结 果 就 是 模型 只 能 预测 训练 集中 最 近 数 据点 
的 目标 值 ， 即 最 后 一 次 观测 到 数据 的 时 间 。 





显然 ， 我 们 可 以 做 得 更 好 。 这 就 是 我 们 的 “专家 知识 ”的 用 武之 地 。 通 过 观察 训练 数据 中 
的 租车 数量 图 像 ， 我 们 发 现 两 个 因素 似乎 非常 重要 : 一 天 内 的 时 间 与 一 周 的 星期 几 。 因 此 
我 们 来 添加 这 两 个 特征 。 我 们 从 POSIX 时 间 中 学 不 到 任何 东西 ， 所 以 删 掉 这 个 特征 。 首 
先 ， 我 们 仅 使 用 每 天 的 时 刻 。 如 图 4-14 所 示 ， 现 在 的 预测 结果 对 一 周 内 的 每 天 都 具有 相同 
的 模式 : 

In[56]: 


X_hour = citibike.index.hour.reshape(-1, 1) 
eval_on_features(X_hour, y, regressor) 


























Out[56] : 
Test-set R^2: 0.60 













- prediction train 
-- prediction test 














图 4-14: 随机 森林 仅 使 用 每 天 的 时 刻 做 出 的 预测 


R’ 已 经 好 多 了 ， 但 预测 结果 显然 没有 抓 住 每 周 的 模式 。 下 面 我 们 还 添加 一 周 的 星期 几 作为 
特征 ( 见 图 4-15) : 
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图 4-15: 随机 森林 使 用 一 周 的 星期 几 和 每 天 的 时 刻 两 个 特征 做 出 的 预测 
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In[57] : 


X_hour_week = np.hstack([citibike.index.dayofweek.reshape(-1, 1), 
citibike.index.hour.reshape(-1, 1)]) 
eval_on_features(X_hour_week, y, regressor) 


Out[57]: 
Test-set R^2: 0.84 


现在 我 们 的 模型 通过 考虑 一 周 的 星期 几 和 一 天 内 的 时 间 捕 捉 到 了 周期 性 的 行为 。 它 的 R 
为 0.84， 预 测 性 能 相当 好 。 模 型 学 到 的 内 容 可 能 是 8 月 前 23 天 中 星期 几 与 时 刻 每 种 组 合 
的 平均 租车 数量 。 这 实际 上 不 需要 像 随 机 森林 这 样 复杂 的 模型 ， 所 以 我 们 尝试 一 个 更 简单 
的 模型 一 一 LinearRegression ( 见 图 4-16) : 





In[58]: 
from sklearn.linear_model import LinearRegression 
eval_on_features(X_hour_week, y, LinearRegression()) 
Out[58]: 
Test-set R^2: 0.13 
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图 4-16: 线性 模型 使 用 一 周 的 星期 几 和 每 天 的 时 刻 两 个 特征 做 出 的 预测 


LinearRegression 的 效果 差 得 多 ， 而 且 周 期 性 模式 看 起 来 很 奇怪 。 其 原因 在 于 我 们 用 整数 
编码 一 周 的 星期 几 和 一 天 内 的 时 间 ， 它 们 被 解释 为 连续 变量 。 因 此 ， 线 性 模型 只 能 学 到 关 
于 每 天 时 间 的 线性 函数 一 一 它 学 到 的 是 ， 时 间 越 晚 ， 租 车 数量 越 多 。 但 实际 模式 比 这 要 复 
杂 得 多 。 我 们 可 以 通过 将 整数 解释 为 分 类 变量 (用 oneHotEncoder 进行 变换 ) 来 获取 这 种 
模式 ( 见 图 4-17) : 

In[59]: 


enc = OneHotEncoder() 
X_hour_week_onehot = enc.fit transform(X_hour_week).toarray() 




















In[60]: 


eval_on_features(X_hour_week_onehot, y, Ridge()) 


Out[60] : 
Test-set R^2: 0.62 
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图 4-17: 线性 模型 使 用 one-hot 编码 过 的 一 周 的 星期 几 和 每 天 的 时 刻 两 个 特征 做 出 的 预测 
给 出 了 比 连续 特征 编码 好 得 多 的 匹配 。 现 在 线性 模型 为 一 周 内 的 每 天 都 学 到 了 一 个 系 
数 ， 为 一 天 内 的 每 个 时 刻 都 学 到 了 一 个 系数 。 也 就 是 说 ,一周 七 天 共享 “一 天 内 每 个 时 
刻 ” 的 模式 。 


利用 交互 特征 ， 我 们 可 以 让 模型 为 星期 几 和 时 刻 的 每 一 种 组 合 学 到 一 个 系数 〈 见 图 4-18) : 
In[61] : 


poly_transformer = PolynomialFeatures(degree=2, interaction_ only=True, 
include_bias=False) 


X_hour_week_onehot_poly = poly_transformer.fit_ transform(X_hour_week_onehot) 
lr = Ridge() 


eval_on_features(X_hour_week_onehot_poly, y, 1r) 
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Out[61] : 
Test-set R^2: 0.85 
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图 4-18: 线性 模型 使 用 星期 几 和 时 刻 两 个 特征 的 乘积 做 出 的 预测 


这 一 变换 最 终 得 到 一 个 性 能 与 随机 森林 类 似 的 模型 。 这 个 模型 的 一 大 优点 是 ， 可 以 很 清楚 
地 看 到 学 到 的 内 容 : 对 每 个 星期 几 和 时 刻 的 交互 项 学 到 了 一 个 系数 。 我 们 可 以 将 模型 学 到 
的 系数 作 图 ， 而 这 对 于 随机 森林 来 说 是 不 可 能 的 。 


首先 ， 为 时 刻 和 星期 几 特征 创建 特征 名 称 : 
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In[62] : 
hour = ["%02d:00" % i for i in range(0, 24, 3)] 
day 总 ["Mon", "Tue", "Ned " ， "Thu " ， "Er Sat” "Sun"] 
features = day + hour 


然后 ， 利 用 get_feature_names 方法 对 PolynomialFeatures 提取 的 所 有 交互 特征 进行 命名 ， 
并 仅 保 留 系 数 不 为 零 的 那些 特征 : 




















In[63] : 
features_poly = poly_transformer .get_feature_names(features) 
features_nonzero = np.array(features_poly)[lr.coef_ != 0] 
coef_nonzero = lr.coef_ [lr.coef_  != 0] 

下 面 将 线性 模型 学 到 的 系数 可 视 化 ， 如 图 4-19 所 示 : 

In[64]: 


plt.figure(figsize=(15, 2)) 

plt.plot(coef_nonzero, 'o') 

plt.xticks(np.arange(len(coef_nonzero)), features_nonzero, rotation=90) 
plt.xlabel("Feature name") 

plt.ylabel("Feature magnitude") 
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图 4-19: 线性 模型 使 用 星期 几 和 时 刻 两 个 特征 的 乘积 学 到 的 系数 


4.7 小结 与 展望 


本 章 讨论 了 如 何 处 理 不 同 的 数据 类 型 (特别 是 分 类 变量 )。 我 们 强调 了 使 用 适合 机 器 学 习 
算法 的 数据 表示 方式 的 重要 性 ， 例 如 one-hot 编码 过 的 分 类 变量 。 还 讨论 了 通过 特征 工程 
生成 新 特征 的 重要 性 ， 以 及 利用 专家 知识 从 数据 中 创建 导出 特征 的 可 能 性 。 特 别 是 线性 模 
型 ， 可 能 会 从 分 箱 、 添 加 多 项 式 和 交互 项 而 生成 的 新 特征 中 大 大 受益 。 对 于 更 加 复杂 的 非 
线性 模型 (比如 随机 森林 和 SVM)， 在 无 需 显 式 扩展 特征 空间 的 前 提 下 就 可 以 学 习 更 加 复 
杂 的 任务 。 在 实践 中 ， 所 使 用 的 特征 〈 以 及 特征 与 方法 之 间 的 匹配 ) 通常 是 使 机 器 学 习 方 
法 表现 良好 的 最 重要 的 因素 。 


现在 你 已 经 知道 了 如 何 适当 地 表示 数据 ， 以 及 对 哪个 任务 使 用 哪 种 算法 ， 下 一 章节 重点 介 
绍 评估 机 器 学 习 模 型 的 性 能 与 选择 正确 的 参数 设置 。 
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模型 评估 与 改进 


前 面 讨论 了 监督 学 习 和 无 监督 学 习 的 基本 原理 ， 并 探索 了 多 种 机 器 学 习 算 法 ， 本 章 我 们 深 





入 学 习 模型 评估 与 参数 选择 。 


我 们 将 重点 介绍 监督 方法 ， 包 括 回 归 与 分 类 ， 因 为 在 无 监督 学 习 中 ， 模 型 评估 与 选择 通常 











是 一 个 非常 定性 的 过 程 (正如 我 们 在 第 3 章 中 所 见 )。 


到 目前 为 止 ， 为 了 评估 我 们 的 监督 模型 ， 我 们 使 用 train_test_split 函数 将 数据 集 划 分 为 
训练 集 和 测试 集 ee a i 


























评估 这 个 模 问题 而 言 ， 就 是 计算 正确 分 类 的 样本 所 占 的 比例 。 下 面 是 这 个 
过 程 的 一 个 示例 : 
In[2]: 


from sklearn.datasets import make_blobs 
from sklearn.linear_model import LogisticRegression 
from sklearn.model_ selection import train test split 





# 创建 一 个 模拟 数据 集 

X, y = make_blobs(random_state=0) 

# 将 数据 和 标签 划分 为 训练 集 和 测试 集 

X_train, X_test, y_train, y_test = train_ test_ split(X, y, random_state=0) 
# 将 模型 实例 化 ， 并 用 它 来 拟 合 训练 集 

Logreg = LogisticRegression().fit(X_train, y_train) 

# 在 测试 集 上 评估 该 模型 

print("Test set score: {:.2f}".format(logreg.score(X_test, y_test))) 














Out[2]: 
Test set score: 0.88 


请 记 住 ， 之 所 以 将 数据 划分 为 训练 集 和 测试 集 ， 是 因为 我 们 想 要 度量 模型 对 前 所 未 见 的 新 
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数据 的 泛 化 性 能 。 我 们 对 模型 在 训练 集 上 的 拟 合 效 果 不 感 兴趣 ， 而 是 想 知道 模型 对 于 训练 
过 程 中 没有 见 过 的 数据 的 预测 能 

本 章 我 们 将 从 两 个 方面 进行 模型 评估 。 我 们 首先 介绍 交 又 验证 ， 然 后 讨论 评估 分 类 和 回归 
性 能 的 方法 ， 其 中 前 者 是 一 种 更 可 靠 的 评估 泛 化 性 能 的 方法 ， 后 者 是 在 默认 度量 (score 
方法 给 出 的 精度 和 R’) 之 外 的 方法 。 


我 们 还 将 讨论 网 格 搜索 ， 这 是 一 种 调节 监督 模型 参数 以 获得 最 佳 泛 化 性 能 的 有 效 方法 。 


5.1 交叉 验证 


交叉 验证 (cross-validation) 是 一 种 评估 泛 化 性 能 的 统计 学 方法 ， 它 比 单 次 划分 训练 集 和 测 
试 集 的 方法 更 加 稳定 、 全 面 。 在 交叉 验证 中 ， 数 据 被 多 次 划分 ， 并 且 需 要 训练 多 个 模型 。 
最 常用 的 交叉 验证 是 K 折 交叉 验证 (k-fold cross-validation)， 其 中 是 由 用 户 指定 的 数字 ， 
通常 取 5 或 10。 在 执行 5 折 交 叉 验 证 时 ， 首 先 将 数据 划分 为 〈 大 致 ) 相等 的 5 部 分 ， 每 一 
部 分 叫 作 折 (fold) 。 接 下 来 训练 一 系列 模型 。 使 用 第 1 折 作 为 测试 集 、 其 他 折 (2~5) 作 
为 训练 集 来 训练 第 一 个 模型 。 利 用 2~5 折 中 的 数据 来 构建 模型 ， 然 后 在 1 折 上 评估 精度 。 
之 后 构建 另 一 个 模型 ， 这 次 使 用 2 折 作为 测试 集 ，1、3、4、5 折 中 的 数据 作为 训练 集 。 利 
用 3、4、5 折 作 为 测试 集 继续 重复 这 一 过 程 。 对 于 将 数据 划分 为 训练 集 和 测试 集 的 这 5 次 
划分 ， 每 一 次 都 要 计算 精度 。 最 后 我 们 得 到 了 5 个 精度 值 。 整 个 过 程 如 图 5-1 所 示 。 
In[3]: 
mglearn.plots.plot_cross_validation() 
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5-1: 5 折 交 叉 验 证 中 的 数据 划分 
通常 来 说， 数据 的 前 五 分 之 一 是 第 1 折 ， 第 二 个 五 分 之 一 是 第 2 折 ， 以 此 类 推 。 


5.1.1 sctikit-Learn 中 的 交叉 验证 


scikit-learn 是 利用 model_selection 模块 中 的 cross_val_score 畏 数 来 实现 交叉 验证 的 。 
cross_val_score 国 数 的 参数 是 我 们 想 要 评估 的 模型 、 训 练 数据 与 真实 标签 。 我 们 在 iris 
数据 集 上 对 LogisticRegression 进行 评估 : 
In[4] : 

from sklearn.model_selection import cross_val_score 


from sklearn.datasets import load iris 
from sklearn.linear_model import LogisticRegression 


iris = load_iris() 
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Logreg = LogisticRegression() 


scores = cross_val_score(logreg, iris.data, iris.target) 
print("Cross-validation scores: {}".format(scores)) 


Out[4] : 
Cross-validation scores: [ 0.961 0.922 0.958] 


默认 情况 下 ，cross_val_score 执行 3 折 交 叉 验 证 ， 返 回 3 个 精度 值 。 可 以 通过 修改 cv 参 
数 来 改变 折 数 : 
In[5]: 


scores = cross_val_score(logreg, iris.data, iris.target, cv=5) 
print("Cross-validation scores: {}".format(scores)) 


Out[5]: 

Cross-validation scores: [ 1. 0.967 0.933 0.9 1 ] 
总 结交 又 验证 精度 的 一 种 常用 方法 是 计算 平均 值 : 
In[6]: 


print("Average cross-validation score: {:.2f}".format(scores.mean())) 


Out[6] : 
Average cross-validation score: 0.96 


我 们 可 以 从 交叉 验证 平均 值 中 得 出 结论 ， 我 们 预计 模型 的 平均 精度 约 为 96%。 观 察 5 折 交 
又 验证 得 到 的 所 有 5 个 精度 值 ， 我 们 还 可 以 发 现 ， 折 与 折 之 间 的 精度 有 较 大 的 变化 ， 范 围 
为 从 100% 精度 到 90% 精度 。 这 可 能 意味 着 模型 强烈 依赖 于 将 某 个 折 用 于 训练 ， 但 也 可 能 
只 是 因为 数据 集 的 数据 量 太 小 。 


5.1.2 ”交叉 验证 的 优点 

使 用 交叉 验证 而 不 是 将 数据 单 次 划分 为 训练 集 和 测试 集 ， 这 种 做 法 具有 下 列 优点 。 首 先 ， 
train_test_split 对 数据 进行 随机 划分 。 想 象 一 下 ， 在 随机 划分 数据 时 我 们 很 “幸运 *， 所 
有 难以 分 类 的 样 例 都 在 训练 集中 。 在 这 种 情况 下 ， 测 试 集 将 仅 包含 “容易 分 类 的 ” 样 例 ， 
并 且 测 试 集 精度 会 高 得 不 切实 际 。 相 反 ， 如 果 我 们 “不 够 考 运 "， 则 可 能 随机 地 将 所 有 难 
以 分 类 的 样 例 都 放 在 测试 集中 ， 因 此 得 到 一 个 不 切实 际 的 低 分 数 。 但 如 果 使 用 交叉 验证 ， 
每 个 样 例 都 会 刚好 在 测试 集中 出 现 一 次 : 每 个 样 例 位 于 一 个 折 中 ， 而 每 个 折 都 在 测试 集中 
出 现 一 次 。 因 此 ， 模 型 需要 对 数据 集中 所 有 样本 的 泛 化 能 力 都 很 好 ， 才 能 让 所 有 的 交叉 验 
证 得 分 (及 其 平均 值 ) 都 很 高 。 
对 数据 进行 多 次 划分 ， 还 可 以 提供 我 们 的 模型 对 训练 集 选 择 的 敏感 性 信息 。 对 于 iris 数据 
集 ， 我 们 观察 到 精度 在 90% 到 100% 之 间 。 这 是 一 个 不 小 的 范围 ， 它 告诉 我 们 将 模型 应 用 
于 新 数据 时 在 最 坏 情 况 和 最 好 情况 下 的 可 能 表现 。 
与 数据 的 单 次 划分 相 比 ， 交 又 验 证 的 另 一 个 优点 是 我 们 对 数据 的 使 用 更 加 高 效 。 在 使 用 
train_test_split 上 时， 我 们 通常 将 75% 的 数据 用 于 训练 ，25% 的 数据 用 于 评估 。 在 使 用 5 
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折 交 叉 验 证 时 ， 在 每 次 欠 代 中 我 们 可 以 使 用 4/5 (80%) 的 数据 来 拟 合 模型 。 在 使 用 10 折 
交叉 验证 时 ， 我 们 可 以 使 用 910 (90%) 的 数据 来 拟 合 模型 。 更 多 的 数据 通常 可 以 得 到 更 
为 精确 的 模型 。 

交叉 验证 的 主要 缺点 是 增加 了 计算 成 本 。 现 在 我 们 要 训练 上 个 模型 而 不 是 单个 模型 ， 所 以 
交叉 验证 的 速度 要 比 数据 的 单 次 划分 大 约 慢 大 倍 。 


重要 的 是 要 记 住 ， 交 又 验证 不 是 一 种 构建 可 应 用 于 新 数据 的 模型 的 方法 。 交 
又 验证 不 会 返回 一 个 模型 。 在 调用 cross_val_score 时 ， 内 部 会 构建 多 个 模 
型 ， 但 交叉 验证 的 目的 只 是 评估 给 定 算法 在 特定 数据 集 上 训练 后 的 泛 化 性 能 
好 坏 。 














5.1.3 分 层 k 折 交叉 验证 和 其 他 策略 
将 数据 集 划 分 为 上 折 时 ， 从 数据 的 前 磊 分 之 一 开始 划分 (正如 上 一 节 所 述 )， 这 可 能 并 不 总 
是 一 个 好 主意 。 例 如 ， 我 们 来 看 一 下 iris 数据 集 : 
In[7]: 
from sklearn.datasets import load iris 


iris = load_iris() 
print("Iris labels:\n{}".format(iris.target)) 


Out[7]: 
Iris labels: 
[0000000000000000000000000000000000000 
人 有 全 日 站 让利 有 候 人 人 和 往生 二 王 下 王 和 和 下 于 二 汪 二 入 于 和 流泪 沁 和 江 汪 王 开 
于 于 :EU i [pe es Es 0 Dt Ne ts He Os 1 I I [0 ee 1 1 tS 
2222222222222222222222222222222222222 
2 2] 


如 你 所 见 ， 数 据 的 前 三 分 之 一 是 类 别 0， 中 间 三 分 之 一 是 类 别 1， 最 后 三 分 之 一 是 类 别 2。 
人 第 1 折 将 只 包含 类 别 0， 所 以 在 数据 的 第 一 
次 划分 中 ， 测 试 集 将 只 包含 类 别 0， 而 训练 集 只 包含 类 别 1 和 2。 由 于 在 3 次 划分 中 训练 
集 和 测试 集中 的 类 别 都 不 相同 ， 因 此 这 个 数据 集 上 的 3 折 交 叉 验 证 精度 为 0。 这 没什么 帮 
助 ， 因 为 我 们 在 iris 上 可 以 得 到 比 0% 好 得 多 的 精度 。 

由 于 简单 的 大 折 策 略 在 这 里 失效 了 ， 所 以 scikit-learn 在 分 类 问题 中 不 使 用 这 种 策略 ， 而 
是 使 用 分 层 K 折 交叉 验证 (stratified Kk-fold cross-validation)。 在 分 层 交 又 验证 中 ， 我 们 划分 
数据 ， 使 每 个 折 中 类 别 之 间 的 比例 与 整个 数据 集中 的 比例 相同 ， 如 图 5-2 所 示 。 


In[8]: 
mglearn.plots.plot_stratified cross_validation() 
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图 5-2: 当 数 据 按 类 别 标签 排序 时 ， 标 准 交叉 验证 与 分 层 交叉 验证 的 对 比 


举 个 例子 ， 如 果 90% 的 样本 属于 类 别 A 而 10% 的 样本 属于 类 别 B， 那 么 分 层 交 又 验证 可 
以 确保 ， 在 每 个 折 中 90% 的 样本 属于 类 别 A 而 10% 的 样本 属于 类 别 B。 

使 用 分 层 大 折 交 叉 验 证 而 不 是 上 折 交 叉 验 证 来 评估 一 个 分 类 器 ， 这 通常 是 一 个 好 主意 ， 因 
为 它 可 以 对 泛 化 性 能 做 出 更 可 靠 的 估计 。 在 只 有 10% 的 样本 属于 类 别 B 的 情况 下 ， 如 采 
使 用 标准 折 交 又 验证 ， 很 可 能 某 个 折 中 只 包含 类 别 A 的 样本 。 利 用 这 个 折 作 为 测试 集 的 
话 ， 无 法 给 出 分 类 器 整体 性 能 的 信息 。 

对 于 回归 问题 ，scikit-Learn 默认 使 用 标准 折 交 又 验证 。 也 可 以 尝试 让 每 个 折 表 示 回 归 
目标 的 不 同 取 值 ， 但 这 并 不 是 一 种 常用 的 策略 ， 也 会 让 大 多 数 用 户 感到 意外 。 


1. 对 交叉 验证 的 更 多 控制 

我 们 之 前 看 到 ， 可 以 利用 cv 参数 来 调节 cross_val_score 所 使 用 的 折 数 。 但 scikit-learn 
允许 提供 一 个 交叉 验证 分 离 器 (cross-validation splitter) 作为 cv 参数 ， 来 对 数据 划分 过 程 
进行 更 精细 的 控制 。 对 于 大 多 数 使 用 场景 而 言 ， 回 归 问 题 默 认 的 上 折 交 叉 验 证 与 分 类 问题 
的 分 层 大 折 交 叉 验 证 的 表现 都 很 好 ， 但 有 些 情况 下 你 可 能 希望 使 用 不 同 的 策略 。 比 如 说 ， 
我 们 想 要 在 一 个 分 类 数据 集 上 使 用 标准 丰 折 交叉 验证 来 重 现 别 人 的 结果 。 为 了 实现 这 一 
点 ， 我 们 首先 必须 从 model_selection 模块 中 导入 KFold 分 离 器 类 ， 并 用 我 们 想 要 使 用 的 
折 数 来 将 其 实例 化 : 

In[9] : 


from skLearn.modeL_seLection import KFold 
kfold = KFold(n_splits=5) 


然后 我 们 可 以 将 kfold 分 离 器 对 象 作为 cv 参数 传人 cross_val_score: 


In[10]: 
print("Cross-validation scores:\n{}".format( 
cross_val_score(logreg, iris.data, iris.target, cv=kfold))) 
































Out[10] : 
Cross-validation scores: 
[ 1: 0.933 0.433 0.967 0.433] 
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通过 这 种 方法 ， 我 们 可 以 验证 ， 在 iris 数据 集 上 使 用 3 折 交 又 验证 (不 分 层 ) 确实 是 一 个 
非常 粳 糕 的 主意 : 


In[11] : 
kfold = KFold(n_splits=3) 
print("Cross-validation scores:\n{}".format( 
cross_val_score(logreg, iris.data, iris.target, cv=kfold))) 


Out[11] : 
Cross-validation scores: 
[ 0. 0. 0.] 








请 记 住 ， 在 iris 数据 集中 每 个 折 对 应 一 个 类 别 ， 因 此 学 不 到 任何 内 容 。 解 决 这 个 问题 的 
另 一 种 方法 是 将 数据 打 乱 来 代替 分 层 ， 以 打 乱 样本 按 标签 的 排序 。 可 以 通过 将 KFold 的 
shuffle 参数 设 为 True 来 实现 这 一 点 。 如 果 我 们 将 数据 打 乱 ， 那 么 还 需要 固定 random_ 
state 以 获得 可 重复 的 打 乱 结果 。 否 则 ， 每 次 运行 cross_val_score 将 会 得 到 不 同 的 结果 ， 
因为 每 次 使 用 的 是 不 同 的 划分 (这 可 能 并 不 是 一 个 问题 ， 但 可 能 会 出 人 意料 )。 在 划分 数 
据 之 前 将 其 打 乱 可 以 得 到 更 好 的 结果 : 


In[12]: 
kfold = KFold(n_splits=3, shuffle=True, random_state=0) 
print("Cross-validation scores:\n{}".format( 
cross_val_score(logreg, iris.data, iris.target, cv=kfold))) 
































Out[12]: 
Cross-validation scores: 
[ 0.9 090.96 0.96] 


2. 留 一 法 交叉 验证 
另 一 种 常用 的 交叉 验证 方法 是 留 一 法 〈leave-one-out) 。 你 可 以 将 留 一 法 交叉 验证 看 作 是 每 
折 只 包含 单个 样本 的 磊 折 交 叉 验 证 。 对 于 每 次 划分 ， 你 选择 单个 数据 点 作为 测试 集 。 这 种 
方法 可 能 非常 耗 时 ， 特 别 是 对 于 大 型 数据 集 来 说 ， 但 在 小 型 数据 集 上 有 时 可 以 给 出 更 好 的 
估计 结果 : 
In[13]: 

from sklearn.model_selection import LeaveOneOut 

Loo = LeaveOneOut() 

scores = cross_val_score(logreg, iris.data, iris.target, cv=loo0) 


print("Number of cv iterations: ", len(scores)) 
print("Mean accuracy: {:.2f}".format(scores.mean())) 











Out[13] : 
Number of cv iterations: 150 
Mean accuracy: 0.95 


3. 打 乱 划分 交叉 验证 

另 一 种 非常 灵活 的 交叉 验证 策略 是 打 乱 划分 交叉 验证 (shuffle-split cross-validation) 。 在 打 
乱 划分 交叉 验证 中 ， 每 次 划分 为 训练 集 取样 train_size 个 点 ， 为 测试 集 取 样 test_size 个 
(不 相交 的 ) 点 。 将 这 一 划分 方法 重复 n_iter 次 。 图 5-3 显示 的 是 对 包含 10 个 点 的 数据 集 
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运行 4 次 迭代 划分 ， 每 次 的 训练 集 包含 5 个 点 ， 测 试 集 包含 2 个 点 (你 可 以 将 train_size 
和 test_size 设 为 整数 来 表示 这 两 个 集合 的 绝对 大 小 ， 也 可 以 设 为 浮 点 数 来 表示 占 整个 数 
据 集 的 比例 ) : 
In[14]: 

mglearn.plots.plot_shuffle_split() 
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图 5-3: 对 10 个 点 进行 打 乱 划分 ， 其 中 train_size=5、test_size=2、n_iter=4 





了 


下 面 的 代码 将 数据 集 划 分 为 50% 的 训练 集 和 50% 的 测试 集 ， 共 运行 10 次 迭代 :: 


In[15]: 
from sklearn.model_selection import ShuffLeSpLit 
shuffle_split = ShuffleSplit(test_size=.5, train_size=.5, Nn_splits=10) 
scores = cross_val_score(logreg, iris.data, iris.target, cv=shuffle_split) 
print("Cross-validation scores:\n{}".format(scores)) 











Out[15]: 
Cross-validation scores: 
[ 0.96 0.907 0.947 0.96 0.96 0.907 0.893 0.907 0.92 0.973] 


打 乱 划分 交叉 验证 可 以 在 训练 集 和 测试 集 大 小 之 外 独立 控制 迭代 次 数 ， 这 有 时 是 很 有 帮助 
的 。 它 还 允许 在 每 次 欠 代 中 仅 使 用 部 分 数据 ， 这 可 以 通过 设置 train_size 与 test_size 之 
和 不 等 于 1 来 实现 。 用 这 种 方法 对 数据 进行 二 次 采样 可 能 对 大 型 数据 上 的 试验 很 有 用 。 


ShuffleSplit 还 有 一 种 分 层 的 形式 ， 其 名 称 为 StratifiedSshuffLeSpLit， 它 可 以 为 分 类 任 
务 提供 更 可 靠 的 结果 。 

4. 分 组 交叉 验证 

另 一 种 非常 第 见 的 交叉 验证 适用 于 数据 中 的 分 组 高 度 相 关 时 。 比 如 你 想 构 建 一 个 从 人 脸 图 
片 中 识别 情感 的 系统 ， 并 且 收 集 了 100 个 人 的 照片 的 数据 集 ， 其 中 每 个 人 都 进行 了 多 次 拍 
摄 ， 分 别 展示 了 不 同 的 情感 。 我 们 的 目标 是 构建 一 个 分 类 器 ， 能 够 正确 识别 未 包含 在 数据 
集中 的 人 的 情感 。 你 可 以 使 用 默认 的 分 层 交 又 验证 来 度量 分 类 器 的 性 能 。 但 是 这 样 的 话 ， 
同一 个 人 的 照片 可 能 会 同时 出 现在 训练 集 和 测试 集中 。 对 于 分 类 器 而 言 ， 检 测 训练 集中 出 
现 过 的 人 脸 情 感 比 全 新 的 人 脸 要 容易 得 多 。 因 此 ， 为 了 准确 评估 模型 对 新 的 人 脸 的 泛 化 能 
力 ， 我 们 必须 确保 训练 集 和 测试 集中 包含 不 同人 的 图 像 。 

为 了 实现 这 一 点 ， 我 们 可 以 使 用 GroupkFoLd， 它 以 groups 数组 作为 参数 ， 可 以 用 来 说 明 照 
片 中 对 应 的 是 哪个 人 。 这 里 的 groups 数组 表示 数据 中 的 分 组 ， 在 创建 训练 集 和 测试 集 的 时 
候 不 应 该 将 其 分 开 ， 也 不 应 该 与 类 别 标签 弄 混 。 





















































注 1: 由 于 此 处 Shufflesplit 未 设置 random_state， 因 此 实际 运行 结果 可 能 和 书 中 有 所 不 同 。 一 一 译 者 广 
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数据 分 组 的 这 种 例子 常见 于 医疗 应 用 ， 你 可 能 拥有 来 自 同一 名 病人 的 多 个 样本 ， 但 想 要 将 
其 泛 化 到 新 的 病人 。 同 样 ， 在 语音 识别 领域 ， 你 的 数据 集中 可 能 包含 同一 名 发 言 人 的 多 条 
记录 ,但 你 希望 能 够 识别 新 的 发 言 人 的 讲话 。 


下 面 这 个 示例 用 到 了 一 个 由 groups 数组 指定 分 组 的 模拟 数据 集 。 这 个 数据 集 包含 12 个 数 
据点 ， 且 对 于 每 个 数据 点 ，groups 指定 了 该 点 所 属 的 分 组 ( 想 想 病人 的 例子 )。 一 共 分 成 4 
个 组 ， 前 3 个 样本 属于 第 一 组 ， 接 下 来 的 4 个 样本 属于 第 二 组 ， 以 此 类 推 : 


In[16]: 
from sklearn.model_selection import GroupKFold 
# 创建 模拟 数据 集 
X, y = make_blobs(n_samples=12, random_state=0) 
# 假设 前 3 个 样本 属于 同一 组 ， 接 下 来 的 4 个 属于 同一 组 ， 以 此 类 推 
groups:s [05 05 0 1 5, ds ,2 2 333 3 
scores = cross_val_score(logreg, X, y, groups, cv=GroupKFold(n_splits=3)) 
print("Cross-validation scores:\n{}".format(scores)) 












































Out[16] : 
Cross-validation scores: 
[ 90.75 0.8 0.667] 


样本 不 需要 按 分 组 进行 排序 ， 我 们 这 么 做 只 是 为 了 便于 说 明 。 基 于 这 些 标签 计算 得 到 的 划 
分 如 图 5-4 所 示 。 
如 你 所 见 ， 对 于 每 次 划分 ， 每 个 分 组 都 是 整体 出 现在 训练 集 或 测试 集中 : 


In[17] : 
mglearn.plots.plot_group_kfold() 





























LabelKFold 
Sptt1 22TAPT ”7 ES HE EE BE A 7 ZA 一 - 
spit2 E22AIC EGG PH | | | | ] ED Training set 











774 par -El Test set 





1 2 















































3 Spit 3 EE EE EE 
0 
pa 


Fa Group 

















7 7 7 
Pa: ped 


2 
1 
9 





1 

1 1 1 
6 7 8 
Data points 


5-4: 用 GroupKFold 进行 依赖 于 标签 的 划分 














scikit-Learn 中 还 有 很 多 交叉 验证 的 划分 策略 ， 适 用 于 更 多 的 使 用 场景 [你 可 以 在 scikit- 
learn 的 用 户 指 南 页 面 查看 这 些 内 容 (http://scikit-learn.org/stable/modules/cross_validation. 
html) ]。 但 标准 的 KFold、StratifiedKFold 和 GroupKFold 是 目前 最 常用 的 几 种 。 


5.2 ”网 格 搜索 


现在 我 们 知道 了 如 果 评 估 一 个 模型 的 泛 化 能 力 ， 下 面 继 续 学 习 通 过 调 参 来 提升 模型 的 泛 化 
性 能 。 第 2 章 和 第 3 章 中 讨论 过 scikit-learn 中 许多 算法 的 参数 设置 ， 在 尝试 调 参 之 前 ， 
重要 的 是 要 理解 参数 的 含义 。 找 到 一 个 模型 的 重要 参数 (提供 最 佳 泛 化 性 能 的 参数 ) 的 取 
值 是 一 项 棘手 的 任务 ， 但 对 于 几乎 所 有 模型 和 数据 集 来 说 都 是 必要 的 。 由 于 这 项 任务 如 此 
常见 ， 所 以 scikit-learn 中 有 一 些 标准 方法 可 以 帮 你 完成 。 最 常用 的 方法 就 是 网 格 搜索 
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(grid search) ， 它 主要 是 指 尝试 我 们 关心 的 参数 的 所 有 可 能 组 合 。 


考虑 一 个 具有 RBF ( 径 向 基 范 数 ) 核 的 核 SVM 的 例子 ， 它 在 SVC 类 中 实现 。 正 如 第 2 章 


中 所 述 ， 它 有 2 个 重要 参数 : 核 宽度 gamma 和 正则 化 参数 Cc。 假设 我 们 希望 尝试 Cc 的 取 值 














为 6.991、9.01、9.1、1、19 和 100，gamma 也 取 这 6 个 值 。 由 于 我 想 要 尝试 的 C 和 gamma 
都 有 6 个 不 同 的 取 值 ， 所 以 总 共有 36 种 参数 组 合 。 所 有 可 能 的 组 合 组 成 了 SVM 的 参数 设 














置 表 (网 格 )， 如 下 所 示 。 


C=0.001 C=0.01 


C=10 





gamma=0.001 SVC(C=0.001, gamma=0.001) SVC(C=0.01, gamma=0.001) ... 


gamma=0.01 © SVC(C=0.001, gamma=0.01) SVC(C=0.01, gamma=0.01) 


gamma=100 SVC(C=0.001, gamma=100) SVC(C=0.01, gamma=100) 


5.2.1 简单 网 格 搜索 


SVC(C=10, gamma=0.001) 
SVC(C=10, gamma=0.01) 


SVC(C=10, gamma=100) 


我 们 可 以 实现 一 个 简单 的 网 格 搜索 ， 在 2 个 参数 上 使 用 for 循环 ， 对 每 种 参数 组 合 分 别 训 








练 并 评估 一 个 分 类 器 : 
In[18]: 
# 简单 的 网 格 搜 索 实 现 


from sklearn.svm import SVC 
X_train, X_test, y_train, y_test = train test_split( 
iris.data, iris.target, random_ state=0) 


print("Size of training set: {} size of test set: {}".format( 


X_train.shape[0], Xx_test.shape[0])) 
best_score = 0 


for gamma in [0.001, 0.01, 0.1, 1, 10, 100]: 
for C in [0.001, 0.01, 0.1, 1, 10, 100]: 
# 对 每 种 参数 组 合 都 训练 一 个 SVC 
svm = SVC(gamma=gamma, C=C) 
svm.fit(X_train, y_train) 
# 在 测试 集 上 评估 SVC 


score = svm.score(X_test, y_test) 


# 如 果 我 们 得 到 了 更 高 的 分 数 ， 则 保存 该 分 数 和 对 应 的 参数 


if score > best_score: 
best_score = score 
best_parameters = {'C': C, 'gamma': gamma} 


print("Best score: {:.2f}".format(best_score)) 
print("Best parameters: {}".format(best_parameters)) 


Out[18] : 
Size of training set: 112 size of test set: 38 
Best Score: 0.97 
Best parameters: {'C': 100, 'gamma': 0.001} 
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5.2.2 ”参数 过 拟 合 的 风险 与 验证 集 
看 到 这 个 结果 ， 我 们 可 能 忍 不 住 要 报告 ,我们 找到 了 一 个 在 数据 集 上 精度 达到 97% 的 模 
型 。 然 而 ， 这 种 说 法 可 能 过 于 乐观 了 (或 者 就 是 错 的 )， 其 原因 如 下 : 我 们 尝试 了 许多 不 
同 的 参数 ， 并 选择 了 在 测试 集 上 精度 最 高 的 那个 ， 但 这 个 精度 不 一 定 能 推广 到 新 数据 上 。 
由 于 我 们 使 用 测试 数据 进行 调 参 ， 所 以 不 能 再 用 它 来 评估 模型 的 好 坏 。 我 们 最 开始 需要 将 
数据 划分 为 训练 集 和 测试 集 也 是 因为 这 个 原因 。 我 们 需要 一 个 独立 的 数据 集 来 进行 评估 ， 
一 个 在 创建 模型 时 没有 用 到 的 数据 集 。 
为 了 解决 这 个 问题 ， 一 种 方法 是 再 次 划分 数据 ， 这 样 我 们 得 到 3 个 数据 集 : 用 于 构建 模型 
的 训练 集 ， 用 于 选择 模型 参数 的 验证 集 (开发 集 )， 用 于 评估 所 选 参数 性 能 的 测试 集 。 锋 
5-5 给 出 了 这 3 个 集合 的 图 示 : 
In[19] : 

mglearn.plots.plot_threefold_split() 
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图 5-5: 对 数据 进行 3 折 划 分 ， 分 为 训练 集 、 验 证 集 和 测试 集 


利用 验证 集 选 定 最 佳 参数 之 后 ， 我 们 可 以 利用 找到 的 参数 设置 重新 构建 一 个 模型 ， 但 是 要 
同时 在 训练 数据 和 验证 数据 上 进行 训练 。 这 样 我 们 可 以 利用 尽 可 能 多 的 数据 来 构建 模型 。 
其 实现 如 下 所 示 : 


In[20]: 




















from sklearn.svm import SVC 
# 将 数据 划分 为 训练 + 验证 集 与 测试 集 
Xx_trainval, X_test, y_trainval, y_test = train test_split( 
iris.data, iris.target, random_state=0) 
# 将 训练 + 验证 集 划 分 为 训练 集 与 验证 集 
Xx_train, X_valid, y_train, y_valid = train_ test_split( 
Xx_trainval, y_trainval, random_state=1) 
print("Size of training set: {} size of validation set: {} size of test set:" 
" {}\n".format(X_train.shape[0], X_valid.shape[0], Xx_test.shape[0])) 





best_score = 0 


for gamma in [0.001, 0.01, 0.1, 1, 10, 100]: 
for C in [0.001, 0.01, 0.1, 1, 10, 100]: 
# 对 每 种 参数 组 合 都 训练 一 个 SVC 
svm = SVC(gamma=gamma, C=C) 
svm.fit(X_train, y_train) 
# 在 验证 集 上 评估 SVC 
score = svm.score(X_valid, y_valid) 
# 如 果 我 们 得 到 了 更 高 的 分 数 ， 则 保存 该 分 数 和 对 应 的 参数 


if score > best_score: 
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best_score = Score 
best_parameters = {'C': C, 'gamma': gamma} 
# 在 训练 + 验证 集 上 重新 构建 一 个 模型 ， 并 在 测试 集 上 进行 评估 
svm = SVC(**best_parameters) 
svm.fit(X_trainval, y_trainval) 
test_score = svm.score(X_ test, y_test) 
print("Best score on validation set: {:.2f}".format(best_score)) 
print("Best parameters: ", best_parameters) 
print("Test set score with best parameters: {:.2f}".format(test_score)) 














Out[20] : 
Size of training set: 84 size of validation set: 28 size of test set: 38 


Best score on validation set: 0.96 
Best parameters: {'C': 10, 'gamma': 0.001} 
Test set score with best parameters: 0.92 


验证 集 上 的 最 高 分 数 是 96%， 这 上 比 之 前 略 低 ， 可 能 是 因为 我 们 使 用 了 更 少 的 数据 来 训练 模 
型 (现在 Xx_train 更 小 ， 因 为 我 们 对 数据 集 做 了 两 次 划分 )。 但 测试 集 上 的 分 数 (这 个 分 数 
实际 反映 了 模型 的 泛 化 能 力 ) 更 低 ， 为 92%。 因 此 ， 我 们 只 能 声称 对 92% 的 新 数据 正确 
分 类 ， 而 不 是 我 们 之 前 认为 的 97% ! 


训练 集 、 验 证 集 和 测试 集 之 间 的 区 别 对 于 在 实践 中 应 用 机 器 学 习 方 法 至 关 重 要 。 任 何 根据 
测试 集 精度 所 做 的 选择 都 会 将 测试 集 的 信息 “泄漏 ”(leak) 到 模型 中 。 因 此 ， 保 留 一 个 单 
独 的 测试 集 是 很 重要 的 ， 它 仅 用 于 最 终 评估 。 好 的 做 法 是 利用 训练 集 和 验证 集 的 组 合 完成 
所 有 的 探索 性 分 析 与 模型 选择 ， 并 保留 测试 集 用 于 最 终 评估 一 一 即使 对 于 探索 性 可 视 化 也 
是 如 此 。 严 格 来 说 ， 在 测试 集 上 对 不 止 一 个 模型 进行 评估 并 选择 更 好 的 那个 ， 将 会 导致 对 
模型 精度 过 于 乐观 的 估计 。 


5.2.3” 带 交叉 验证 的 网 格 搜 索 


虽然 将 数据 划分 为 训练 集 、 验 证 集 和 测试 集 的 方法 (如 上 所 述 ) 是 可 行 的 ， 也 相对 常 
用 ,但 这 种 方法 对 数据 的 划分 方法 相当 敏感 。 从 上 面 代码 片段 的 输出 中 可 以 看 出 ， 网 格 
搜索 选择 'C': 106，'gamma': 0.001 作为 最 佳 参数 ， 而 5.2.2 证 的 代码 输出 选择 'C': 109， 
'gamma': 0.001 作为 最 佳 参数 。 为 了 得 到 对 泛 化 性 能 的 更 好 估计 ， 我 们 可 以 使 用 交 又 验证 
来 评估 每 种 参数 组 合 的 性 能 ， 而 不 是 仅 将 数据 单 次 划分 为 训练 集 与 验证 集 。 这 种 方法 用 代 
码 表 示 如 下 : 


In[21] : 
for gamma in [0.001, 0.01, 0.1, 1, 10, 100]: 
for C in [0.001, 0.01, 0.1, 1, 10, 100]: 

# 对 于 每 种 参数 组 合 都 训练 一 个 SVC 
svm = SVC(gamma=gamma, C=C) 
# 执行 交 又 验证 
scores = cross_val_score(svm, X_trainval, y_trainval, cv=5) 
# 计算 交叉 验证 平均 精度 
score = np.mean(scores) 
# 如 果 我 们 得 到 了 更 高 的 分 数 ， 则 保存 该 分 数 和 对 应 的 参数 


if score > best_score: 
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best_score = Score 

best_parameters = {'C': C, 'gamma': gamma} 
# 在 训练 + 验证 集 上 重新 构建 一 个 模型 
svm = SVC(**best_parameters) 
svm.fit(X_trainval, y_trainval) 


要 想 使 用 5 折 交 又 验证 对 C 和 gamma 特定 取 值 的 SVM 的 精度 进行 评估 ， 需 要 训练 36 x 5 = 
180 个 模型 。 你 可 以 想象 ， 使 用 交叉 验证 的 主要 缺点 就 是 训练 所 有 这 些 模 型 所 需 花费 的 
时 间 。 
下 面 的 可 视 化 (图 5-6) 说 明了 上 述 代 码 如 何 选择 最 佳 参数 设置 ; 
In[22] : 

mglearn.plots.plot_cross_val_selection() 
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5-6: 带 交叉 验证 的 网 格 搜索 结果 








对 于 每 种 参数 设置 (图 中 仅 显 示 了 一 部 分 )， 需 要 计算 5 个 精度 值 ， 交 又 验证 的 每 次 划分 
都 要 计算 一 个 精度 值 。 然 后 ， 对 每 种 参数 设置 计算 平均 验证 精度 。 最 后 ， 选 择 平均 验证 精 
度 最 高 的 参数 ， 用 圆圈 标记 。 











如 前 所 述 ， 交 叉 验 证 是 在 特定 数据 集 上 对 给 定 算法 进行 评估 的 一 种 方法 。 但 
它 通 常 与 网 格 搜索 等 参数 搜索 方法 结合 使 用 。 因 此 ， 许 多 人 使 用 交叉 验证 
(cross-validation) 这 一 术语 来 通俗 地 指 代 带 交叉 验证 的 网 格 搜索 。 






































划分 数据 、 运 行 网 格 搜索 并 评估 最 终 参数 ， 这 整个 过 程 如 图 5-7 所 示 。 


In[23] : 
mgLearn.pLots.pLot_grid_search_overview() 























5-7: 用 GridSearchCy 进行 参数 选择 与 模型 评估 的 过 程 概述 


由 于 带 交 又 验证 的 网 格 搜索 是 一 种 常用 的 调 参 方法 ， 因 此 scikit-learn 提供 了 
GridsearchCV 类 ， 它 以 估计 器 (estimator) 的 形式 实现 了 这 种 方法 。 要 使 用 GridsearchCv 
类 ， 你 首先 需要 用 一 个 字典 指定 要 搜索 的 参数 。 然 后 GridsearchCV 会 执行 所 有 必要 的 模 
型 拟 合 。 字 典 的 键 是 我 们 要 调节 的 参数 名 称 (在 构建 模型 时 给 出 ， 在 这 个 例子 中 是 5 和 
gamma)， 字 典 的 值 是 我 们 想 要 尝试 的 参数 设置 。 如 果 C 和 gamma 想 要 尝试 的 取 值 为 0.061、 
9.01、9.1、1、190 和 190， 可 以 将 其 转化 为 下 面 这 个 字典 ; 


In[24] : 
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100], 
'gamma': [0.001, 0.01, 0.1, 1, 10, 100]} 
print("Parameter grid:\n{}".format(param_grid)) 























Out[24] : 

Parameter grid: 

{'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]} 
现在 我 们 可 以 使 用 模型 (SVC)、 要 搜索 的 参数 网 格 (param_grid) 与 要 使 用 的 交叉 验证 策 
略 (比如 5 折 分 层 交 又 验证 ) 将 GridsearchCV 类 实例 化 : 


In[25]: 
from sklearn.model_ selection import GridSearchCV 
from sklearn.svm import SVC 
grid_search = GridSearchCV(SVC(), param_grid, cv=5) 


GridsearchCV 将 使 用 交叉 验证 来 代替 之 前 用 过 的 划分 训练 集 和 验证 集 方法 。 但 是 ， 我 们 仍 
需要 将 数据 划分 为 训练 集 和 测试 集 ， 以 避免 参数 过 拟 合 : 
In[26] : 
X_traitin，X_test，y_tratn，y_test = train test_split( 
tiris.data，iris.target，random_state=0) 
我 们 创建 的 grid_search 对 象 的 行为 就 像 是 一 个 分 类 器 ， 我 们 可 以 对 它 调用 标准 的 fit、 
predict 和 score 方法 。 但 我 们 在 调用 fit 时 ， 它 会 对 param_grid 指定 的 每 种 参数 组 合 都 





注 2: 用 另 一 个 估计 器 创建 的 scikit-learn 估计 器 被 称 为 元 估计 器 (meta-estimator)。GridsearchCV 是 最 常 
用 的 元 估计 器 ， 但 后 面 我 们 将 看 到 更 多 。 
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运行 交叉 验证 : 


In[27] : 
grid_ search.fit(X_train, y_train) 


拟 合 GridsearchCV 对 象 不 仅 会 搜索 最 佳 参 数 ， 还 会 利用 得 到 最 佳 交叉 验证 性 能 的 参数 在 
整个 训练 数据 集 上 自动 拟 合 一 个 新 模型 。 因 此 ，fit 完成 的 工作 相当 于 本 节 开 头 In[21] 
的 代码 结果 。GridSearchCy 类 提供 了 一 个 非常 方便 的 接口 ， 可 以 用 predict 和 score 方 
法 来 访问 重新 训练 过 的 模型 。 为 了 评估 找到 的 最 佳 参 数 的 泛 化 能 力 ， 我 们 可 以 在 测试 集 
上 调用 score: 
In[28]: 

print("Test set score: {:.2f}".format(grid_ search.score(X test, y_test))) 








Out[28] : 
Test set Score: 0.97 


利用 交叉 验证 选择 参数 ， 我 们 实际 上 找到 了 一 个 在 测试 集 上 精度 为 97% 的 模型 。 重 要 的 
是 ， 我 们 没有 使 用 测试 集 来 选择 参数 。 我 们 找到 的 参数 保存 在 best_params_ 属性 中 ， 而 交 
又 验证 最 佳 精度 (对 于 这 种 参数 设置 ， 不 同 划分 的 平均 精度 ) 保存 在 best_score_ 中 : 
In[29]: 


print("Best parameters: {}".format(grid_ search.best _ params_)) 
print("Best cross-validation score: {:.2f}".format(grid_ search.best_score_)) 





Out[29] : 
Best parameters: {'C': 100, 'gamma': 0.01} 
Best cross-validation score: 0.97 








同样 ， 注 意 不 要 将 best_score_ 与 模型 在 测试 集 上 调用 score 方法 计算 得 到 
的 泛 化 性 能 弄 混 。 使 用 score 方 法 (或 者 对 predict 方法 的 输出 进行 评估 ) 
采用 的 是 在 整个 训练 集 上 训练 的 模型 。 而 best_score_ 属性 保存 的 是 交叉 验 
证 的 平均 精度 ， 是 在 训练 集 上 进行 交叉 验证 得 到 的 。 














能 够 访问 实际 找到 的 模型 ， 这 有 时 是 很 有 帮助 的 ， 比 如 查看 系数 或 特征 重要 性 。 你 可 以 用 
best_estimator_ 属性 来 访问 最 佳 参数 对 应 的 模型 ， 它 是 在 整个 训练 集 上 训练 得 到 的 ; 
In[30] : 

print("Best estimator:\n{}".format(grid_ search.best estimator_)) 








Out[30]: 

Best estimator: 

SVC(C=100, cache_size=200, class_weight=None, coef0=0.0, 
decision_function_shape=None, degree=3, gamma=0.01, kernel='rbf', 
max_iter=-1, probability=False, random_ state=None, shrinking=True, 
tol=0.001, verbose=False) 


由 于 grid_search 本 身 具 有 predict 和 score 方法 ， 所 以 不 需要 使 用 best_estimator_ 来 进 
行 预测 或 评估 模型 。 
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1. 分 析 交 叉 验证 的 结果 

将 交叉 验证 的 结果 可 视 化 通常 有 助 于 理解 模型 泛 化 能 力 对 所 搜索 参数 的 依赖 关系 。 由 于 运 
行 网 格 搜索 的 计算 成 本 相当 高 ， 所 以 通常 最 好 从 相对 比较 稀 玻 且 较 小 的 网 格 开 始 搜索 。 然 
后 我 们 可 以 检查 交叉 验证 网 格 搜索 的 结果 ， 可 能 也 会 扩展 搜索 范围 。 网 格 搜索 的 结果 可 以 
在 cv_results_ 属性 中 找到 ， 它 是 一 个 字典 ， 其 中 保存 了 搜索 的 所 有 内 容 。 你 可 以 在 下 面 
的 输出 中 看 到 ， 它 里 面包 含 许多 细节 ， 最 好 将 其 转换 成 pandas 数据 框 后 再 查看 : 


In[31] : 
import pandas as pd 


# 转换 为 DataFrame (数据 框 ) 
results = pd.DataFrame(grid_ search.cv_results ) 
# 显示 前 5 行 

display(results.head()) 




































































Out[31] : 
param C param_gamma params mean_test_score 

0 0.001 0.001 {'C': 0.001, 'gamma': 0.001} 0.366 

1 0.001 0.01 {'C': 0.001, 'gamma': 0.01} 0.366 

2 0.001 0.1 {'C': 0.001, 'gamma': 0.1} 0.366 

3 0.001 1 {'C': 0.001, 'gamma': 1} 0.366 

4 0.001 10 {'C': 0.001, 'gamma': 10} 0.366 
rank_test_ score splitQ test score split1 test score split2 test_ score 

0 22 0.375 0.347 0.363 

1 22 0.375 0.347 0.363 

2 22 0.375 0.347 0.363 

3 22 0.375 0.347 0.363 

4 22 0.375 0.347 0.363 
split3 test_score split4 test score std_test_ score 

0 0.363 0.380 0.011 

1 0.363 0.380 0.011 

2 0.363 0.380 0.011 

3 0.363 0.380 0.011 

4 0.363 0.380 0.011 





results 中 每 一 行 对 应 一 种 特定 的 参数 设置 。 对 于 每 种 参数 设置 ， 交 又 验 证 所 有 划分 的 结 
果 都 被 记录 下 来 ， 所 有 划分 的 平均 值 和 标准 差 也 被 记录 下 来 。 由 于 我 们 搜索 的 是 一 个 二 维 
参数 网 格 (C 和 gamma) ， 所 以 最 适合 用 热 图 可 视 化 〈 见 图 5-8)。 我 们 首先 提取 平均 验证 分 
数 ， 然 后 改变 分 数 数组 的 形状 ， 使 其 坐标 轴 分 别 对 应 于 5 和 gamma: 


In[32] : 
scores = np.array(resuLts.mean_test_score).reshape(6，6) 


























# 对 交 又 验证 平均 分 数 作 图 
mglearn.tools.heatmap(scores, xlabel='gamma', xticklabels=param_grid['gamma'], 
ylabel='C', yticklabels=param_grid['C'], cmap="viridis") 
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图 5-8: 以 C 和 gamma 为 自 变量 ， 交 叉 验 证 平均 分 数 的 热 图 





热 图 中 的 每 个 点 对 应 于 运行 一 次 交 又 验证 以 及 一 种 特定 的 参数 设置 。 颜 色 表示 交 又 验证 
的 精度 : 浅 色 表示 高 精度 ， 深 色 表 示 低 精度 。 你 可 以 看 到 ，SVC 对 参数 设置 非常 敏感 。 对 
于 许多 种 参数 设置 ， 精 度 都 在 40% 左右 ， 这 是 非常 精 粒 的， 对 于 其 他 参数 设置 ， 精 度 约 
为 96%。 我 们 可 以 从 这 张 图 中 看 出 以 下 儿 点 。 首 先 ， 我 们 调节 的 参数 对 于 获得 良好 的 性 能 
非常 重要 。 这 两 个 参数 (C 和 gamma) 都 很 重要 ， 因 为 调节 它们 可 以 将 精度 从 40% 提高 到 
96%。 此 外 ， 在 我 们 选择 的 参数 范围 中 也 可 以 看 到 输出 发 生 了 显著 的 变化 。 同 样 重要 的 是 
要 注意 ， 参 数 的 范围 要 足够 大 : 每 个 参数 的 最 佳 取 值 不 能 位 于 图 像 的 边界 上 。 







































































下 面 我 们 来 看 儿 张 图 〈 见 图 5-9) ， 甚 结果 不 那么 理想 ， 因 为 选择 的 搜索 范围 不 合适 。 
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图 5-9: 错误 的 搜索 网 格 的 热 图 可 视 化 


In[33]: 
fig, axes = plt.subplots(1, 3, figsize=(13, 5)) 


param_grid_linear = {'C': np.linspace(1, 2, 6), 
'gamma': np.linspace(1, 2, 6)} 


param_grid_one_log = {'C': np.linspace(1, 2, 6),， 
'gamma': nNp.logspace(-3, 2, 6)} 


param_grid_range = {'C': np.Logspace(-3，2，6)， 
'gamma': np.logspace(-7, -2, 6)} 





for param_grid，ax in zip([param_grid_Linear，param_grid_one_Log， 
param_grid_range], axes): 
grid_search = GridSearchCV(SVC(), param_grid, cv=5) 
grid_search.fit(X_train, y_train) 
scores = grid_search.cv_results_['mean_test_score'].reshape(6, 6) 


# 对 交 又 验证 平均 分 数 作 图 

scores_image = mglearn.tools.heatmap( 
scores, xlabel='gamma', ylabel='C', xticklabels=param_grid['gamma'], 
yticklabels=param_grid['C'], cmap="viridis", ax=ax) 


plt.colorbar(scores_image, ax=axes.tolist()) 


一 张 图 没有 显示 任何 变化 ， 整 个 参数 网 格 的 颜色 相同 。 在 这 种 情况 下 ， 这 是 由 参数 5 和 
9amma 不 正确 的 缩放 以 及 不 正确 的 范围 造成 的 。 es 
的 变化 ， 也 可 能 是 因为 这 个 参数 根本 不 重要 。 通 常 最 好 在 开始 时 尝试 非常 极端 的 值 ， 以 观 
察 改变 参数 是 否 会 导致 精度 发 生变 化 。 


第 二 张 图 显示 的 是 垂直 条 形 模式 。 这 表示 只 有 gamma 的 设置 对 精度 有 影响 。 这 可 能 意味 
着 gamma 参数 的 搜索 范围 是 我 们 所 关心 的 ， 而 5 参数 并 不 是 一 一 也 可 能 意味 着 5 参数 并 
不 重要 。 


第 三 张 图 中 C 和 gamma 对 应 的 精度 都 有 变化 。 但 可 以 看 到 ， 在 图 像 的 整个 左下 角 都 没有 发 
生 什 么 有 趣 的 事情 。 我 们 在 后 面 的 网 格 搜索 中 可 以 不 考虑 非常 小 的 值 。 最 佳 参 数 设置 出 现 
在 右上 角 。 由 于 最 佳 参数 位 于 图 像 的 边界 ， 所 以 我 们 可 以 认为 ， 在 这 个 边界 之 外 可 能 还 有 
更 好 的 取 值 ， 我 们 可 能 希望 改变 搜索 范围 以 包含 这 一 区 域内 的 更 多 参数 。 


基于 交叉 验证 分 数 来 调节 参数 网 格 是 非常 好 的 ， 也 是 探索 不 同 参数 的 重要 性 的 好 方法 。 但 
是 ， 你 不 应 该 在 最 终 测 试 集 上 测试 不 同 的 参数 范围 一 一 前 面 说 过 ， 只 有 确切 知道 了 想 要 使 
用 的 模型 ， 才 能 对 测试 集 进 行 评估 。 


2. 在 非 网 格 的 空间 中 搜索 

在 某 些 情况 下 ， 尝 试 所 有 参数 的 所 有 可 能 组 合 (正如 GridsearchCV 所 做 的 那样 ) 并 不 是 
一 个 好 主意 。 例 如 ，SVC 有 一 个 kernel 参数 ， 根 据 所 选择 的 kernel (内 核 )， 其 他 参数 
也 是 与 之 相关 的 。 如 果 kernel='linear'， 那 么 模型 是 线性 的 ， 只 会 用 到 CC 参数 。 如 果 
kernel='rbf' ， 则 需要 使 用 C 和 gamma 两 个 参数 (但 用 不 到 类 似 degree 的 其 他 参数 )。 在 
这 种 情况 下 ， 搜 索 C、gamma 和 kernel 所 有 可 能 的 组 合 没 有 意义 : 如 果 kernel='linear'， 
那么 gamma 是 用 不 到 的 ， 尝 试 gamma 的 不 同 取 值 将 会 浪费 时 间 。 为 了 处 理 这 种 “条 
件 ”(conditional) 参数 ，GridsearchCV 的 param_grid 可 以 是 字典 组 成 的 列表 (a list of 
dictionaries)。 列 表 中 的 每 个 字典 可 扩展 为 一 个 独立 的 网 格 。 包 含 内 核 与 参数 的 网 格 搜索 可 
能 如 下 所 示 。 


In[34]: 
param_grid = [{'kernel': ['rbf']， 
C': [0.001, 0.01, 0.1, 1, 10, 100], 
'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}, 
{'kernel': ['linear'], 
Cc': [0.001, 0.01, 0.1, 1, 10, 100]}] 
print("List of grids:\n{}".format(param_ grid)) 
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Out[34] : 
List of grids: 
[{'kernel': ['rbf'], 'C': [0.001, 0.01, 0.1, 1, 10, 100], 
'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}, 
{'kernel': ['linear'], 'C': [0.001, 0.01, 0.1, 1, 10, 100]}] 


在 第 一 个 网 格 中 ，kernel 参数 始终 等 于 'rbf' (注意 kernel 是 一 个 长 度 为 1 的 列表 )， 而 
C 和 gamma 都 是 变化 的 。 在 第 二 个 网 格 中 ，kernel 参数 始终 等 于 'linear'， 只 有 C 是 变化 
的 。 下 面 我 们 来 应 用 这 个 更 加 复杂 的 参数 搜索 : 


In[35]: 
grid_search = GridSearchCV(SVC(), param_grid, cv=5) 
grid_search.fit(X_train, y_train) 
print("Best parameters: {}".format(grid_ search.best_ params_)) 
print("Best cross-validation score: {:.2f}".format(grid_ search.best_score_)) 


Out[35]: 
Best parameters: {'C': 100, 'kernel': 'rbf', 'gamma': 0.01} 
Best cross-validation score: 0.97 


我 们 再 次 查看 cv_results_。 正 如 所 料 ， 如 果 kernel 等 于 'linear' ， 那 么 只 有 C 是 变化 的 ”: 


In[36]: 
results = pd.DataFrame(grid search.cv_results ) 
# 我 们 给 出 的 是 转 置 后 的 表格 ， 这 样 更 适合 页 面 显 示 : 
dispLay(resuLts.T) 





下 























Out[36] : 
0 1 2 3 ES8 39 40 41 
param_C 0.001 0.001 0.001 0.001 3 “0 1 10 100 
param gamma 0.001 0.01 0.1 1 .NaN NaN NaN NaN 
param_ kernel rbf rbf rbf rbf ... linear linear linear linear 
{C: 0.001, {C: 0.001，{C: 0.001, {@: 000 50 {E05B {C1 {CC: 10; {C100; 
an kernel: rbf, kernel: rbf, kernel: rbf, kernel: rbf, Kernel: Kernel: Kernel: Kernel: 
gamma: gamma: gamma: 0.1} gamma: 1} linear} linear} linear} linear} 
0.001} 0.01} 
mean_test_score 0.37 0.37 0.37 0.37 ... 0.95 0.97 0.96 0.96 
rank_test_score 27 27 27 27 ee 1 3 3 
splitO_test_score 0.38 0.38 0.38 0.38 ... 0.96 1 0.96 0.96 
splitl_test_score 0.35 0.35 0.35 0.35 ye, OO 0.96 1 1 
split2_test_score 0.36 0.36 0.36 0.36 i 1 1 1 
split3_test_score 0.36 0.36 0.36 0.36 si A091 0.95 0.91 0.91 
split4_test_score 0.38 0.38 0.38 0.38 ... 0.95 0.95 0.95 0.95 


std_test_score 0.011 0.011 0.011 0.011 a 0033 0.022 0.034 0.034 


12 rows X42 columns 














注 3: 这 里 的 实际 输出 结果 有 23 行 ， 作 者 在 这 里 对 其 做 了 删节 。 详 见 本 书 GitHub 仓库 https://github.com/ 
amueller/introduction_to_ml_with_python/blob/master/05-model-evaluation-and-improvement.ipynb 的 In [36]。 
一 一 译 者 注 
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3. 使 用 不 同 的 交叉 验证 策略 进行 网 格 搜索 

与 cross_val_score 类 似 ，GridsearchCV 对 分 类 问题 默认 使 用 分 层 大 折 交 叉 验 证 ， 对 回归 
问题 默认 使 用 左 折 交叉 验证 。 但 是 ， 你 可 以 传 入 任何 交叉 验证 分 离 器 作为 GridsearchCV 的 
cv 参数 ， 正 如 2.1.3 节 中 的 “对 交叉 验证 的 更 多 控制 ”部 分 所 述 。 特 别 地 ， 如 果 只 想 将 数 
据 单 次 划分 为 训练 集 和 验证 集 ， 你 可 以 使 用 ShuffLeSpLit 或 StratifiedShuffLeSpLit， 并 
设置 n_iter=1。 这 对 于 非常 大 的 数据 集 或 非常 慢 的 模型 可 能 会 有 帮助 。 

(1) 谋 套 交 又 验证 

在 前 面 的 例子 中 ， 我 们 先 介 绍 了 将 数据 单 次 划分 为 训练 集 、 验 证 集 与 测试 集 ， 然 后 介 
绍 了 先 将 数据 划分 为 训练 集 和 测试 集 ， 再 在 训练 集 上 进行 交叉 验证 。 但 前 面 在 使 用 
GridsearchCV 上 时， 我 们 仍然 将 数据 单 次 划分 为 训练 集 和 测试 集 ， 这 可 能 会 导致 结果 不 稳 
定 ， 也 让 我 们 过 于 依赖 数据 的 此 次 划分 。 我 们 可 以 再 深入 一 点 ， 不 是 只 将 原始 数据 一 次 
划分 为 训练 集 和 测试 集 ， 而 是 使 用 交叉 验证 进行 多 次 划分 ， 这 就 是 所 谓 的 肉 套 交叉 验证 
(nested cross-validation)。 在 幅 套 交叉 验证 中 ， 有 一 个 外 层 循 环 ， 遍 历 将 数据 划分 为 训练 
集 和 测试 集 的 所 有 划分 。 对 于 每 种 划分 都 运行 一 次 网 格 搜索 (对 于 外 层 循 环 的 每 种 划分 可 
能 会 得 到 不 同 的 最 佳 参 数 ) 。 然 后 ， 对 于 每 种 外 层 划分 ， 利 用 最 佳 参数 设置 计算 得 到 测试 
集 分 数 。 
这 一 过 程 的 结果 是 由 分 数组 成 的 列表 一 一 不 是 一 个 模型 ， 也 不 是 一 种 参数 设置 。 这 些 分 数 
告诉 我 们 在 网 格 找到 的 最 佳 参 数 下 模型 的 泛 化 能 力 好 坏 。 由 于 艇 套 交 叉 验 证 不 提供 可 用 于 
新 数据 的 模型 ， 所 以 在 寻找 可 用 于 未 来 数据 的 预测 模型 时 很 少 用 到 它 。 但 是 ， 它 对 于 评估 
给 定 模型 在 特定 数据 集 上 的 效果 很 有 用 。 


在 scikit-Learn 中 实现 在 套 交 又 验证 很 简单 。 我 们 调用 cross_val_score， 并 用 GridsearchCV 
的 一 个 实例 作为 模型 : 


In[34]: 
scores = cross_val_score(GridSearchCV(SVC(), param_grid, cv=5), 
iris.data, iris.target, cv=5) 
print("Cross-validation scores: ", scores) 
print("Mean cross-validation score: ", scores.mean()) 




























































































Out[34] : 
Cross-validation scores: [ 0.967 1. 0.967 0.967 1. ] 
Mean cross-validation score: 0.98 


嵌 套 交叉 验证 的 结果 可 以 总 结 为 “svc 在 iris 数据 集 上 的 交叉 验证 平均 精度 为 98%” 
不 多 也 不 少 。 


这 里 我 们 在 内 层 循环 和 外 层 循 环 中 都 使 用 了 分 层 5 折 交 叉 验 证 。 由 于 param_grid 包含 36 
种 参数 组 合 ， 所 以 需要 构建 36x5x5 = 900 个 模型 ， 导致 租 套 交 又 验证 过 程 的 代价 很 高 。 
这 里 我 们 在 内 层 循 环 和 外 层 循 环 中 使 用 相同 的 交叉 验证 分 离 器 ， 但 这 不 是 必需 的 ， 你 可 以 
在 内 层 循 环 和 外 层 循环 中 使 用 交叉 验证 策略 的 任意 组 合 。 理 解 上 面 单行 代码 的 内 容 可 能 

点 困难 ， 将 其 展开 为 for 循环 可 能 会 有 所 帮助 ， 正 如 我 们 在 下 面 这 个 简化 的 实现 中 所 做 的 
那样 
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In[35] : 
def nested_cv(X，y，inner_cv，outer_cvV，CLassifier，parameter_grid): 
outer_scores = [] 
# 对 于 外 层 交 又 验证 的 每 次 数据 划分 ，split 方 法 返回 索引 值 
for training_samples, test_samples in outer_cv.split(X, y): 
# 利用 内 层 交 又 验证 找到 最 佳 参 数 
best_parms = {} 
best_score = -np.inf 
# 遍历 参数 
for parameters in parameter_grid: 
# 在 内 层 划 分 中 累加 分 数 
cv_scores = [] 
# 遍历 内 层 交 又 验证 
for inner_train, inner_test in inner_cv.split( 
Xx[training_samples], yl[training_samples]): 
# 对 于 给 定 的 参数 和 训练 数据 来 构建 分 类 器 
clf = Classifier(**parameters) 
clf.fit(X[inner_train], y[inner_train]) 
# 在 内 层 测试 集 上 进行 评估 
score = clf.score(X[inner_test], yl[inner_test]) 
cv_scores.append(score) 
# 计算 内 层 交 又 验 证 的 平均 分 数 
mean_score = np.mean(cv_scores) 
if mean_score > best_score: 
# 如 果 比 前 面 的 模型 都 要 好 ， 则 保存 其 
best_score = mean_score 
best_params = parameters 
# 利用 外 层 训 练 集 和 最 佳 参 数 来 构建 模型 
clf = Classifier(**best_params) 
clf.fit(X[training_samples], y[training_samples]) 
# 评估 模型 
outer_scores.append(clf.score(X[test_samples], y[test_samples])) 
return np.array(outer_scores) 


下 面 我 们 在 iris 数据 集 上 运行 这 个 函数 : 


In[36]: 
from sklearn.model_selection import ParameterGrid, StratifiedKFold 
scores = nested_cv(iris.data, iris.target, StratifiedKFold(5), 
StratifiedKFold(5), SVC, ParameterGrid(param_grid)) 
print("Cross-validation scores: {}".format(scores)) 














Wp 
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Out[36] : 
Cross-validation scores: [ 0.967 1. 0.967 0.967 1. ] 


(2) 交叉 验证 与 网 格 搜索 并 行 

虽然 在 许多 参数 上 运行 网 格 搜索 和 在 大 型 数据 集 上 运行 网 格 搜索 的 计算 量 可 能 很 大 ， 但 令 
人 塌 碎 的 是 ， 这 些 计 算 都 是 并 行 的 (parallel) 。 这 也 就 是 说 ， 在 一 种 交叉 验证 划分 下 使 用 
特定 参数 设置 来 构建 一 个 模型 ， 与 利用 其 他 参数 的 模型 是 完全 独立 的 。 这 使 得 网 格 搜索 与 
交叉 验证 成 为 多 个 CPU 内 核 或 集群 上 并 行 化 的 理想 选择 。 你 可 以 将 n_jobs 参数 设置 为 你 
想 使 用 的 CPU 内 核 数 量 ， 从 而 在 GridsearchCv 和 cross_val_score 中 使 用 多 个 内 核 。 你 可 
以 设置 n_jobs=-1 来 使 用 所 有 可 用 的 内 核 。 
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你 应 该 知道 ，scikit-learn 不 允许 并 行 操作 的 衬 套 。 因 此 ， 如 果 你 在 模型 (比如 随机 森 
林 ) 中 使 用 了 n_jobs 选项 ， 那 么 就 不 能 在 6ridsearchCV 使 用 它 来 搜索 这 个 模型 。 如 果 你 
的 数据 集 和 模型 都 非常 大 ， 那 么 使 用 多 个 内 核 可 能 会 占用 大 量 内 存 ， 你 应 该 在 并 行 构建 大 
型 模型 时 监视 内 存 的 使 用 情况 。 

还 可 以 在 集群 内 的 多 台 机 器 上 并 行 运行 网 格 搜 索 和 交叉 验证 ， 不 过 在 写作 本 书 时 scikit- 
learn 还 不 支持 这 一 点 。 但 是 ， 如 有 果 你 不 介意 像 5.2.1 刷 那样 编写 for 循环 来 志 历 参数 的 
话 ， 可 以 使 用 了 Python 并 行 框架 来 进行 并 行 网 格 搜索 。 


对 于 Spark 用 户 ， 还 可 以 使 用 最 新 开发 的 spark-sklearn 包 (https://github.com/databricks/ 
spark-sklearn) ， 它 人 允许 在 已 经 建立 好 的 Spark 集群 上 运行 网 格 搜索 。 


MT 性 一 AT 

5.3 评估 指标 与 评分 

到 目前 为 止 ， 我 们 使 用 精度 (正确 分 类 的 样本 所 占 的 比例 ) 来 评估 分 类 性 能 ， 使 用 R* 来 
评估 回归 性 能 。 但 是 ， 总 结 监督 模型 在 给 定数 据 集 上 的 表现 有 多 种 方法 ， 这 两 个 指标 只 是 
其 中 两 种 。 在 实践 中 ， 这 些 评估 指标 可 能 不 适用 于 你 的 应 用 。 在 选择 模型 与 调 参 上 时， 选择 
正确 的 指标 是 很 重要 的 。 


5.3.1 牢记 最 终 目 标 


在 选择 指标 时 ， 你 应 该 始终 牢记 机 器 学 习 应 用 的 最 终 目标 。 在 实践 中 ， 我 们 通常 不 仅 对 精 
确 的 预测 感 兴 趣 ， 还 希望 将 这 些 预测 结果 用 于 更 大 的 决策 过 程 。 在 选择 机 器 学 习 指 标 之 
前 ， 你 应 该 考虑 应 用 的 高 级 目标 ， 这 通常 被 称 为 商业 指标 (business metric)。 对 于 一 个 机 
器 学 习 应 用 ， 选 择 特定 算法 的 结果 被 称 为 商业 影响 (business impact) 。“ 高 级 目标 可 能 是 避 
免 交 通 事 故 或 者 减少 入 院 人 数 ， 也 可 能 是 吸引 更 多 的 网 站 用 户 或 者 让 用 户 在 你 的 商店 中 花 
更 多 的 钱 。 在 选择 模型 或 调 参 时 ， 你 应 该 选择 对 商业 指标 具有 最 大 正面 影响 的 模型 或 参数 
值 。 这 通常 是 很 难 的 ， 因 为 要 想 评 估 某 个 模型 的 商业 影响 ， 可 能 需要 将 它 放 在 真实 的 生产 
环境 中 。 

在 开发 的 初期 阶段 调 参 ， 仅 为 了 测试 就 将 模型 投入 生产 环境 往往 是 不 可 行 的 ， 因 为 可 能 涉 
及 很 高 的 商业 风险 或 个 人 风险 。 想 象 一 下 ， 为 了 测试 无 人 驾驶 汽车 的 行人 避让 能 力 ， 没 有 
事先 验证 就 让 它 直 接 上 路 。 如 果 模 型 很 糟糕 的 话 ， 行 人 就 会 遇 到 麻烦 ! 因此 ， 我 们 通常 需 
要 找到 某 种 替代 的 评估 程序 ， 使 用 一 种 更 容易 计算 的 评估 指标 。 例 如 ， 我 们 可 以 测试 对 行 
人 和 非 行 人 的 图 片 进行 分 类 并 测量 精度 。 请 记 住 ， 这 只 是 一 种 替代 方法 ， 找 到 与 原始 商业 
目标 最 接近 的 可 评估 的 指标 也 很 有 用 。 应 尽 可 能 使 用 这 个 最 接近 的 指标 来 进行 模型 评估 与 
选择 。 评 估 的 结果 可 能 不 是 一 个 数字 一 一 算法 的 结果 可 能 是 顾客 多 了 10%， 但 每 位 顾客 的 
花费 减少 了 15% 一 一 但 它 应 该 给 出 选择 一 个 模型 而 不 选 另 一 个 所 造成 的 预期 商业 影响 。 


本 市 我 们 将 首先 讨论 二 分 类 这 一 重要 特例 的 指标 ， 然 后 转向 多 分 类 问题 ， 最 后 讨论 回归 
问题 。 






























































































































































注 4: 请 具有 科学 头脑 的 读者 原谅 本 节 中 出 现 的 商业 语言 。 不 忘 最终 目 标 在 科学 中 也 同样 重要 ， 但 作者 想 不 
到 在 这 一 领域 中 与 “商业 影响 ”具有 类 似 含义 的 词语 。 
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5.3.2 ”二 分 类 指标 

二 分 类 可 能 是 实践 中 最 常见 的 机 器 学 习 应 用 ， 也 是 概念 最 简单 的 应 用 。 但 是 ， 即 使 是 评估 
这 个 简单 任务 也 仍 有 一 些 注意 事项 。 在 深入 研究 替代 指标 之 前 ， 我 们 先 看 一 下 测量 精度 可 
能 会 如 何 误导 我 们 。 请 记 住 ， 对 于 二 分 类 问题 ， 我 们 通常 会 说 正 类 (positive class) 和 反 类 
(negative class) ， 而 正 类 是 我 们 要 寻找 的 类 。 

1. 错误 类 型 

通常 来 说 ， 精 度 并 不 能 很 好 地 度量 预测 性 能 ， 因 为 我 们 所 犯错 误 的 数量 并 不 包含 我 们 感 兴 
趣 的 所 有 信息 。 想 象 一 个 应 用 ， 利 用 自动 化 测试 来 筛 查 癌症 的 早期 发 现 。 如 果 测 试 结果 为 
阴性 ， 那 么 认为 患者 是 健康 的 ， 而 如 果 测 试 结果 为 阳性 ， 患 者 则 需要 接受 额外 的 秘 查 。 这 
里 我 们 将 阳性 测试 结果 (表示 患 有 癌症 ) 称 为 正 类 ， 将 阴性 测试 结果 称 为 反 类 。 我 们 不 能 
假设 模型 永远 是 完美 的 ， 它 也 会 犯错 。 对 于 任何 应 用 而 言 ， 我 们 都 需要 问 问 自己 ,这些 错 
误 在 现实 世界 中 可 能 有 什么 后 果 。 

一 种 可 能 的 错误 是 健康 的 患者 被 诊断 为 阳性 ， 导 致 需要 进行 额外 的 测试 。 这 给 患者 带 来 
了 一 些 费 用 支出 和 不 便 (可 能 还 有 精神 上 的 痛苦 )。 错 误 的 阳性 预测 叫 作假 正 例 (false 
positive) 。 另 一 种 可 能 的 错误 是 患 病 的 人 被 诊断 为 阴性 ， 因 而 不 会 接受 进一步 的 检查 和 治 
疗 。 未 诊断 出 的 癌症 可 能 导致 严重 的 健康 问题 ， 甚 至 可 能 致命 。 这 种 类 型 的 错误 (错误 的 
阴性 预测 ) 叫 作 假 反 例 (false negative)。 在 统计 学 中 ， 假 正 例 也 叫 作 第 一 类 错误 (type I 
error) ， 假 反例 也 叫 作 第 二 类 错误 (type I error) 。 我 们 将 坚持 使 用 “ 假 正 例 ” 和 “ 假 反例 ” 
的 说 法 ， 因 为 它们 的 含义 更 加 明确 ， 也 更 好 记 。 在 癌症 诊断 的 例子 中 ， 显 然 ， 我 们 希望 尽 
量 避 免 假 反例 ， 而 假 正 例 可 以 被 看 作 是 小 麻烦 。 


虽然 这 是 一 个 特别 极端 的 例子 ， 但 假 正 例 和 假 反 例 造 成 的 结果 很 少 相 同 。 在 商业 应 用 中 ， 
可 以 为 两 种 类 型 的 错误 分 配 美元 值 ， 即 用 美元 而 不 是 精度 来 度量 某 个 预测 结果 的 错误 。 对 
于 选择 使 用 哪 种 模型 的 商业 决策 而 言 ， 这 种 方法 可 能 更 有 意义 。 

2. 不 平衡 数据 集 

如 果 在 两 个 类 别 中 ， 一 个 类 别 的 出 现 次 数 比 另 一 个 多 很 多 ， 那 么 错误 类 型 将 发 挥 重要 作 
用 。 这 在 实践 中 十 分 常见 ， 一 个 很 好 的 例子 是 点 击 (click-through) 预测 ， 其 中 每 个 数据 点 
表示 一 个 “印象 ”(impression) ， 即 向 用 户 展示 的 一 个 物 项 。 这 个 物 项 可 能 是 广告 、 相 关 的 
故事 ,或 者 是 在 社交 媒体 网 站 上 关注 的 相关 人 员 。 目 标 是 预测 用 户 是 否 会 点 击 看 到 的 某 个 
特定 物 项 (表示 他 们 感 兴趣 )。 用 户 对 互联 网 上 显示 的 大 多 数 内 容 (尤其 是 广告 ) 都 不 会 
点 击 。 你 可 能 需要 向 用 户 展示 100 个 广告 或 文章 ， 他 们 才 会 找到 足够 有 趣 的 内 容 来 点 击 查 
看 。 这 样 就 会 得 到 一 个 数据 集 ， 其 中 每 99 个 “未 点 击 ” 的 数据 点 才 有 1 个 “已 点 击 ” 的 
数据 点 。 换 句 话 说，999% 的 样本 属于 “未 点 击 ” 类 别 。 这 种 一 个 类 别 比 另 一 个 类 别 出 现 次 
数 多 很 多 的 数据 集 ， 通 常 叫 作 不 平衡 数据 集 (imbalanced dataset) 或 者 具有 不 平衡 类 别 的 
数据 集 (dataset with imbalanced classes) 。 在 实际 当中 ， 不 平衡 数据 才 是 常态 ， 而 数据 中 感 
兴趣 事件 的 出 现 次 数 相同 或 相似 的 情况 十 分 罕见 。 

现在 假设 你 在 构建 了 一 个 在 点 击 预测 任务 中 精度 达到 99% 的 分 类 器 。 这 告诉 了 你 什么 ? 
99% 的 精度 昕 起 来 令 人 印象 深刻 ， 但 是 它 并 没有 考虑 类 别 不 平衡 。 你 不 必 构 建 机 器 学 习 模 
型 ， 始 终 预测 “未 点 击 ” 就 可 以 得 到 99% 的 精度 。 另 一 方面 ， 即 使 是 不 平衡 数据 ,精度 达 
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到 99% 的 模型 实际 上 也 是 相当 不 错 的 。 但 是 ， 精 度 无 法 帮助 我 们 区 分 不 变 的 “未 点 击 ” 模 
型 与 潜在 的 优秀 模型 。 
为 了 便于 说 明 ， 我 们 将 digits 数据 集中 的 数字 9 与 其 他 九 个 类 别 加 以 区 分 ， 从 而 创建 一 个 
9:1 的 不 平衡 数据 集 : 
In[37]: 

from sklearn.datasets import load digits 








digits = load digits() 
y = digits.target == 9 


X_train, X_test, y_train, y_test = train test_split( 
digits.data, y, random_state=0) 


我 们 可 以 使 用 DummyClassifier 来 始终 预测 多 数 类 (这 里 是 “ 非 9”)， 以 查看 精度 提供 的 信 
息 量 有 多 么 少 : 


In[38]: 
from sklearn.dummy import DummyClassifier 
dummy_majority = DummyClassifier(strategy='most_frequent').fit(X_train, y_train) 
pred_most_ frequent = dummy_majority.predict(X_test) 
print("Unique predicted labels: {}".format(np.unique(pred_most_ frequent))) 
print("Test score: {:.2f}".format(dummy_majority.score(X_ test, y_test))) 





Out[38] : 
Unique predicted labels: [FaLse] 
Test score: 0.90 


我 们 得 到 了 接近 90% 的 精度 ， 却 没有 学 到 任何 内 容 。 这 个 结果 可 能 看 起 来 相当 好 ， 但 请 
思考 一 会 儿 。 想 象 一 下 ， 有 人 告诉 你 他 们 的 模型 精度 达到 90%。 你 可 能 会 认为 他 们 做 得 很 
好 。 但 根据 具体 问题 ， 也 可 能 是 仅 预测 了 一 个 类 别 ! 我 们 将 这 个 结果 与 使 用 一 个 真实 分 类 
器 的 结果 进行 对 比 : 


In[39] : 
from skLearn.tree import DecisionTreeClassifier 
tree = DecisionTreeClassifier(max_depth=2).fit(X_train, y_train) 
pred_tree = tree.predict(X_test) 
print("Test score: {:.2f}".format(tree.score(X_test，y_test))) 

















Out[39] : 

Test score: 0.92 
从 精度 来 看 ，DecisionTreeClassifier 仅 比 常数 预测 稍 好 一 点 。 这 可 能 表示 我 们 使 用 
DecisionTreeClassifier 的 方法 有 误 ， 也 可 能 是 因为 精度 实际 上 在 这 里 不 是 一 个 很 好 的 度量 。 
为 了 便于 对 比 ， 我 们 再 评估 两 个 分 类 器 ，LogisticRegression 与 默认 的 DummyClassifier， 
其 中 后 者 进行 随机 预测 ， 但 预测 类 别 的 比例 与 训练 集中 的 比例 相同 ): 
































: 由 于 此 处 DummyClassifier 未 设置 random_state， 因 此 实际 运行 结果 可 能 和 书 中 不 同 。 一 一 译 者 注 
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In[40] : 
from sklearn.linear_model import LogisticRegression 
dummy = DummyClassifier().fit(X_train, y_train) 


pred_dummy = dummy.predict(X_test) 
print("dummy score: {:.2f}".format(dummy.score(X_test, y_test))) 


Logreg = LogisticRegression(C=0.1).fit(X_train, y_train) 

pred_Logreg = logreg.predict(X_test) 

print("Logreg score: {:.2f}".format(logreg.score(X_ test, y_test))) 
Out[40]: 

dummy score: 0.80 

Logreg score: 0.98 


显而易见 ， 产 生 随 机 输出 的 虚拟 分 类 器 是 所 有 分 类 器 中 最 差 的 (精度 最 低 )， 而 
LogisticRegression 则 给 出 了 非常 好 的 结果 。 但 是 ， 即 使 是 随机 分 类 器 也 得 到 了 超过 80% 的 
精度 。 这 样 很 难 判 断 哪些 结果 是 真正 有 帮助 的 。 这 里 的 问题 在 于 ， 要 想 对 这 种 不 平衡 数据 的 
预测 性 能 进行 量化 ， 精 度 并 不 是 一 种 合适 的 度量 。 在 本 章 接 下 来 的 内 容 中 ， 我 们 将 探索 在 选 
择 模型 方面 能 够 提供 更 好 指导 的 其 他 指标 。 我 们 特别 希望 有 一 个 指标 可 以 告诉 我 们 ， 一 个 模 
型 比 “ 最 常见 ”预测 (由 pred_most_frequent 给 出 ) 或 随机 预测 (由 pred_dummy 给 出 ) 要 好 
多 少 。 如 果 我 们 用 一 个 指标 来 评估 模型 ， 那 么 这 个 指标 应 该 能 够 淘汰 这 些 无 意义 的 预测 。 

3. 混淆 矩阵 

对 于 二 分 类 问题 的 评估 结果 ， 一 种 最 全 面 的 表示 方法 是 使 用 混淆 矩阵 (confusion matrix ) 。 
我 们 利用 confusion_matrix 国 数 来 检查 上 一 节 中 LogisticRegression 的 预测 结果 。 我 们 已 
经 将 测试 集 上 的 预测 结果 保存 在 pred_logreg 中 : 


In[41]: 
from sklearn.metrics import confusion_ matrix 


































































































confusion = confusion matrix(y_test, pred_logreg) 

print("Confusion matrix:\n{}".format(confusion)) 
Out[41]: 

Confusion matrix: 

[[401 2] 

[ 8 39]] 

confusion_matrix 的 输出 是 一 个 2x2 数组 ， 其 中 行 对 应 于 真实 的 类 别 ， 列 对 应 于 预测 的 类 
别 。 数 组 中 每 个 元 素 给 出 属于 该 行 对 应 类 别 (这 里 是 “ 非 9” 和 “9”) 的 样本 被 分 类 到 该 
列 对 应 类 别 中 的 数量 。 图 5-10 对 这 一 含义 进行 了 说 明 。 
In[42]: 

mglearn.plots.plot_confusion matrix_illustration() 
混淆 矩阵 主 对 角 线 “上 的 元 素 对 应 于 正确 的 分 类 ,而 其 他 元 素 则 告诉 我 们 一 个 类 别 中 有 和 多少 
样本 被 错误 地 划分 到 其 他 类 别 中 。 





























注 6: 对 于 一 个 二 维 数组 或 矩阵 A， 其 主 对 角 线 是 ALi，, i]。 
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真实 的 “9E9” 上 


真实 的 “9” | 





| Ee 








预测 的 “E90” 


预测 的 “97 








5-10:“9 与 其 了 他 ”分 类 任务 的 混 满 和 矩 阵 


如 果 我 们 将 “9” 作 为 正 类 ， 那 么 就 可 以 将 混淆 矩阵 的 元 素 与 前 面 介绍 过 的 假 正 例 (false 
positive) 和 假 反 例 (false negative) 两 个 术语 联系 起 来 。 为 了 使 图 像 更 加 完整 ， 我 们 将 
正 类 中 正确 分 类 的 样本 称 为 真正 例 (true positive)， 将 反 类 中 正确 分 类 的 样本 称 为 真 反例 
(true negative)。 这 些 术语 通常 缩写 为 FFP、FN、TP 和 TN， 这 样 就 可 以 得 到 下 图 对 混 清算 


阵 的 解释 (图 5-11) : 
In[43]: 





mglearn.plots.plot_binary_confusion matrix() 























反 类 上 


正 类 








预测 为 反 类 


-~--------T-------- 





预测 为 正 类 








5-11: 二 分 类 混淆 和 矩 阵 
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下 面 我 们 用 混淆 算 阵 来 比较 前 面 拟 合 过 的 模型 (两 个 虚拟 模型 、 决 策 树 和 Logistic 回归 ) : 


In[44]: 
print("Most frequent class:") 
print(confusion matrix(y_test, pred_most_ frequent)) 
print("\nDummy model:") 
print(confusion matrix(y_test, pred_dummy)) 
print("\nDecision tree:") 
print(confusion matrix(y_test, pred_tree)) 
print("\nLogistic Regression") 
print(confusion matrix(y_test, pred_logreg)) 


Out[44] : 
Most frequent class: 
[[403 0] 
[47 0]] 


Dummy model: 
[[361 42] 
[ 43 4]] 


Decision tree: 
[[390 13] 
[ 24 23]] 


Logistic Regression 
[[401 2] 
Eb。 名 39] 


ea 很 明显 可 以 看 出 pred_most_frequent 有 问题 ， 因 为 它 总 是 预测 同一 个 类 
da 很 少 (4 个 ) ， 特 别 是 与 假 反 例 和 假 正 例 的 数量 相 
量 竞 然 比 真 正 例 还 多 ! 决策 本 的 预测 比 虚拟 预测 更 有 意义 ， 即使 二 者 精 
ee 
例 和 真 反 例 的 数量 更 多 ， 而 假 正 例 和 假 反 例 的 数量 更 少 。 从 这 个 对 比 中 可 以 明确 看 出 ， 只 
有 决策 树 和 Logistic 回归 给 出 了 合理 的 结果 ， 并 且 Logistic 回归 的 效果 全 0 
但 是 ， 检 查 整 个 混淆 矩阵 有 点 麻烦 ， 虽 然 我 们 通过 观察 矩阵 的 各 个 方面 得 到 了 很 多 深入 
解 ， 但 是 这 个 过 程 是 人 工 完 成 的 ， 也 是 非常 定性 的 。 有 几 种 方法 可 以 总 
的 信息 ， 我 们 将 在 后 面 进行 讨论 。 


与 精度 的 关系 。 我 们 已 经 讲 过 一 种 总 结 混 淆 矩阵 结果 的 方法 一 一 计算 精度 ， 其 公式 表达 如 
下 所 示 : 







































































TP -TN 
TP+ IN+ FP + FN 








Accuracy 
换 句 话说， 精度 是 正确 预测 的 数量 (TP 和 TN) 除 以 所 有 样本 的 数量 (混淆 矩阵 中 所 有 元 
素 的 总 和 )。 


准确 率 、 召 回 率 与 分数。 总 结 混 淆 矩阵 还 有 几 种 方法 ， 其 中 最 常见 的 就 是 准确 率 和 召回 
率 。 准 确 率 (precision) 度量 的 是 被 预测 为 正 例 的 样本 中 有 多 少 是 真正 的 正 例 : 




















TP 
TP: 直 -FP 


如 果 目 标 是 限制 假 正 例 的 数量 ， 那 么 可 以 使 用 准确 率 作为 性 能 指标 。 举 个 例子 ， 想 象 一 个 
模型 ， 它 预测 一 种 新 药 在 临床 试验 治疗 中 是 否 有 效 。 众 所 周知 ， 临 床 试验 非常 昂贵 ， 制 
药 公 司 只 有 在 非常 确定 药物 有 效 的 情况 下 才 会 进行 试验 。 因 此 ， 模 型 不 会 产生 很 多 假 正 
例 是 很 重要 的 一 一 换 句 话 说， 模型 的 准确 率 很 高 。 准 确 率 也 被 称 为 阳性 预测 值 (positive 
predictive value，PPYV ) 。 


另 一 方面 ， 召 回 率 (recall) 度量 的 是 正 类 样本 中 有 多 少 被 预测 为 正 类 : 





Precision = 
































TP 
TP + FN 


如 果 我 们 需要 找 出 所 有 的 正 类 样本 ， 即 避免 假 反 例 是 很 重要 的 情况 下 ， 那 么 可 以 使 用 召回 
率 作 为 性 能 指标 。 本 章 前 面 的 癌症 诊断 例子 就 是 一 个 很 好 的 例子 : 找 出 所 有 患 病 的 人 很 
重要 ， 预 测 结 果 中 可 能 包含 健康 的 人 。 召 回 率 的 其 他 名 称 有 灵敏 度 (sensitivity) 、 命 中 率 
(hit rate) 和 真正 例 率 (true positive rate，TPR ) 。 


在 优化 召回 率 与 优化 准确 率 之 间 需 要 折 中 。 如 果 你 预测 所 有 样本 都 属于 正 类 ， 那 么 可 以 轻 
松 得 到 完美 的 召回 率 一 一 没有 假 反例 ， 也 没有 真 反 例 。 但 是 ， 将 所 有 样本 都 预测 为 正 类 ， 
将 会 得 到 许多 假 正 例 ， 因 此 准确 率 会 很 低 。 与 之 相反 ， 如 果 你 的 模型 只 将 一 个 最 确定 的 数 
据点 预测 为 正 类 ， 其 他 点 都 预测 为 反 类 ， 那 么 准确 率 将 会 很 完美 (假设 这 个 数据 点 实际 上 
就 属于 正 类 )， 但 是 召回 率 会 非常 差 。 


准确 率 和 召回 率 只 是 从 TP、FP、TN 和 FN 导出 的 众多 分 类 度量 中 的 两 个 。 
你 可 以 在 Wikipedia 上 找到 所 有 度量 的 摘要 (https://en.wikipedia.org/wiki/ 
Sensitivity_and_specificity) 。 在 机 器 学 习 社 区 中 ， 准 确 率 和 召回 率 是 最 常用 的 
二 分 类 度量 ， 但 其 他 社区 可 能 使 用 其 他 相关 指标 。 


Recall = 




























































































虽然 准确 率 和 如 回 率 是 非常 重要 的 度量 ， 但 是 仅 查 看 二 者 之 一 无 法 为 你 提供 完整 的 图 景 。 
将 两 种 度量 进行 汇总 的 一 种 方法 是 大 分 数 (Fscore) 或 大 度量 (f-measure)， 它 是 准确 率 与 
召回 率 的 调和 平均 : 





precision . recall 
precision + recall 


这 一 特定 变 体 也 被 称 为 -分数 (fi-score)。 由 于 同时 考虑 了 准确 率 和 召回 率 ， 所 以 它 对 于 
不 平衡 的 二 分 类 数据 集 来 说 是 一 种 比 精度 更 好 的 度量 。 我 们 对 之 前 计算 过 的 “9 与 其 余 ” 
数据 集 的 预测 结果 计算 fi- 分数。 这 里 我 们 假定 “9” 类 是 正 类 (标记 为 True， 其 他 样本 被 
标记 为 False)， 因 此 正 类 是 少数 类 : 
In[45]: 

from sklearn.metrics import f1_score 


print("f1 score most frequent: {:.2f}".format( 
f1_score(y_test，pred_most_frequent) )) 





F=2 
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print("f1 score dummy: {:.2f}".format(f1 score(y_test，pred_dummy) )) 

print("f1 score tree: {:.2f}".format(f1_score(y_test, pred_tree))) 

print("f1 score logistic regression: {:.2f}".format( 
f1_score(y_test, pred_logreg))) 


Out[45] : 


f1 
f1 
f1 
f1 


score dummy: 0.10 
score tree: 0.55 


score most frequent: 0.00 


score logistic regression: 0.89 


这 里 我 们 可 以 注意 到 两 件 事 情 。 第 一 ， 我 们 从 most_frequent 的 预测 中 得 到 一 条 错误 信息 ， 


因为 预测 的 正 类 数量 为 0 (使 得 三 分数 的 分 母 为 0)。 


石生 一 


下 一 ， 


我 们 可 以 看 到 虚拟 预测 与 决策 





树 预 测 之 间 有 很 大 的 区 别 ， 而 仪 观察 精 度 时 二 者 的 区 别 并 不 明显 。 利 用 广 分 数 进行 评估 ， 


我 们 











再 次 用 一 个 数字 总 结 了 预 议 








直觉 。 然 而 ,大 分 数 的 一 个 缺点 是 比 精度 更 加 难以 解释 。 


如 果 我 们 想 要 对 准确 率 、 召 回 
cation_report 这 个 很 方便 的 函数 ， 它 可 以 同时 计算 这 三 个 值 








In[46]: 
from sklearn.metrics import classification_report 
print(classification_report(y_test, pred_most frequent, 


Out[46] : 
precision 
not nine 0.90 
nine 0.00 
avg / total 0.80 


classification_report 国 数 为 每 个 类 别 (这 里 是 True 和 False) 生成 一 行 ， 并 给 出 以 i 
类 别 作为 正 类 的 准确 率 、 召 回 率 和 大分 数 。 前 面 我 们 假设 较 少 的 “9” 类 是 正 类 。 如 有 果 
将 正 类 改 为 “not nine”( 非 9)， 我 们 可 以 从 classification_report 的 输出 中 看 出 ， 利 用 
most_frequent 模型 得 到 的 大分 数 为 0.94。 此 外 ， 对 于 “not nine” 类 别 ， 召 回 率 是 1， 














率 和 有 fi- 分数 做 一 个 更 全 














target_names=["not nine", 


recall fi-score support 
1.00 0.94 403 
0.00 0.00 47 
0.90 0.85 450 


| 性 能 。 但 是 ,大 分 数 似乎 比 精度 更 加 符合 我 们 对 好 模型 的 


的 总 结 ， 可 以 使 用 classifi 


， 并 以 美观 的 格式 打印 出 来 : 


"nine"])) 





去 





























大 











为 我 们 将 所 有 样本 都 分 类 为 “not nine”。 太 分 数 旁 边 的 最 后 一 列 给 出 了 每 个 类 别 的 支持 
(support) ， 它 表示 的 是 在 这 个 类 别 中 真实 样本 的 数量 。 


分 类 报告 的 最 后 一 行 显示 的 是 对 应 指标 的 加 权 平 均 〈 按 每 个 类 别 中 的 样本 个 数 加 权 )。 下 

















In[47] : 
print(classification_report(y_test, pred_dummy, 
































target_names=["not nine", 














而 还 有 两 个 报告 ， 一 个 是 虚拟 分 类 器 的 “， 一 个 是 Logistic 回归 的 : 


"nine"])) 











注 7: 由 于 前 面 In[40] 中 的 DummyClassifier 未 设置 random_state， 因 此 此 处 的 实际 运行 结果 可 能 与 书 中 不 
同 。 一 一 译 者 注 
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Out[47] : 


precision 

not nine 0.90 
nine 0.11 

avg / total 0.81 


In[48]: 


recall 


fi-score support 
0.91 403 
0.10 47 
0.82 450 


print(classification_report(y_test, pred_logreg, 


Out[48]: 
precision 
not nine 0.98 
nine 0.95 
avg / total 0.98 





target_names=["not nine", 


recall 


fi-score support 
0.99 403 
0.89 47 
0.98 450 


"nine"])) 





在 查看 报告 时 你 可 能 注意 到 了 ， 虚 拟 模 型 与 好 模型 之 间 的 区 别 不 











4 那么 明显 。 选 择 哪个 











类 作为 正 类 对 指标 有 很 大 影响 。 虽 然 在 以 “nine” 类 作为 正 类 时 虚拟 分 类 的 广 分 数 是 0.10 
而 以 “not nine” 类 作为 正 类 时 二 者 的 广 分 数 分 别 是 0.91 和 


(对 比 es 
0.99 ， 
可 以 请 | Logistic 


4. 考虑 不 确定 性 
混 清 矩阵 和 分 类 报告 为 一 











了 模型 中 包含 的 大 量 信息 。 正 如 我 们 在 第 


回归 的 0.89)， 
结果 看 起 来 都 很 合理 。 不 过 同时 查看 所 有 数字 可 以 
回归 模型 的 优势 。 





2 章 中 所 讨论 的 那样 ， 





给 出 非常 准确 的 医 








像 ， 我 们 











组 特定 的 预测 提供 了 非常 详细 的 分 析 。 但 是 ， 预 测 本 身 已 经 丢弃 











大 多 数 分 类 器 都 提供 了 一 





个 decision_function 或 predict_proba 方法 来 评估 预测 的 不 确定 度 。 预 测 可 以 被 看 作 是 以 


某 个 固定 点 作为 decision_function 或 predict_proba 输 
函数 的 国 值 ，0.5 作为 predict_proba 的 国 值 


看 是 一 个 不 平衡 二 分 类 任务 的 示例 ， 反 类 中 有 400 个 点 ， 而 正 类 中 只 有 50 个 点 。 训 练 
5-12 左 侧 所 示 。 我 们 在 这 个 数据 上 训练 一 个 核 SVM 模型 ，i 
图 像 偏 上 的 位 置 看 到 一 个 黑色 
在 这 个 圆圈 内 的 点 将 被 划 为 正 类 ， 圆圈 外 的 点 将 被 划 为 反 类 : 


们 


下 
数据 如 图 
将 决策 国 数值 绘制 为 热 图 
function 的 国 值 刚好 为 0。 


In[49] : 


使 用 0 作为 决策 








7 





























。 你 可 以 在 




















from mglearn.datasets import make_blobs 
X, y = make_blobs(n_samples=(400, 50), centers=2, cluster_std=[7.0, 2], 

random_state=22) 
X_train, X_test, y_train, y_test = train test split(X, y, random state=0) 
svc = SVC(gamma=.05).fit(X_train, y_train) 


In[50]: 


mglearn.plots.plot_ decision threshold() 


的 国人 


o 








二 分 类 问题 中 ， 我 


训练 数据 右 侧 的 图 像 
圆圈 ， 表 示 decision_ 
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training data decision with threshold 0 decision with threshold -0.8 


Cross-section with threshold 0 


Cross-section with threshold -0.8 
图 5-12: 决策 函数 的 热 图 与 改变 决策 阔 值 的 影响 


我 们 可 以 使 用 classification_report 函数 来 评估 两 个 类 别 的 准确 率 与 召回 率 : 


In[51]: 
print(classification_report(y_test, svc.predict(X_test))) 

























Decision value 
Decision value 














Out[51] : 
precision recall fi-score support 
0 0.97 0.89 0.93 104 
1 0535 0.67 0.46 9 
avg / total 0.92 0.88 0.89 113 


对 于 类 别 1， 我 们 得 到 了 一 个 相当 低 的 准确 率 ， 而 召回 率 则 令 人 糊涂 (mixed)。 由 于 类 别 
0 要 大 得 多 ， 所 以 分 类 器 将 重点 放 在 将 类 别 0 0 分 类 正确 ， 而 不 是 较 小 的 类 别 1。 


假设 在 我 们 的 应 用 中 ， 类 别 1 具有 高 召回 率 更 加 重要 ， 正 如 前 面 的 癌症 筛 查 例子 那样 。 这 
意味 着 我 们 愿意 冒险 有 更 多 的 假 正 例 〈 假 的 类 别 1) ， 以 换取 更 多 的 真正 例 (可 增 大 召回 
率 )。svc.predict 生成 的 预测 无 法 满足 这 个 要 求 ， 但 我 们 可 以 通过 改变 决策 国 值 不 等 于 0 
来 将 预测 重点 放 在 使 类 别 1 的 召回 率 更 高 。 默 认 情 况 下 ，decision_function 值 大 于 0 的 点 
将 被 划 为 类 别 1。 我 们 希望 将 更 多 的 点 划 为 类 别 1， 所 以 需要 减 小 国 值 : 


In[52]: 
y_pred_lower_threshold = svc.decision_function(X_test) > -.8 


我 们 来 看 一 下 这 个 预测 的 分 类 报告 : 


In[53]: 
print(classification_report(y_test, y_pred_lower_threshold)) 

















out[53] : 


precision recall fi-score suypport 

0 1.00 0.82 0.90 104 

上 0.32 1.00 0.49 9 

avg / total 0.95 0.83 0.87 413 


正如 所 料 ， 类 别 1 的 召回 率 增 大 ， 准确 率 减 小 。 现 在 我 们 将 更 大 的 空间 区 域 划 为 类 别 1， 
正如 图 5-12 右上 图 中 所 示 。 如 果 你 认为 准确 率 比 召回 率 更 重要 ， 或 者 反 过 来 ,或 者 你 的 数 
据 严 重 不 平衡 ， 那 么 改变 决策 国 值 是 得 到 更 好 结果 的 最 简单 方法 。 由 于 decision_function 
的 取 值 可 能 在 任意 范围 ， 所 以 很 难 提供 关于 如 何 选取 阔 值 的 经 验 法 则 。 


如 果 你 设置 了 国 值 ， 那 么 要 小 心 不 要 在 测试 集 上 这 人 么 做 。 与 其 他 任何 参数 一 
样 ， 在 测试 集 上 设置 决策 国 值 可 能 会 得 到 过 于 乐观 的 结果 。 可 以 使 用 验证 集 
或 交叉 验证 来 代替 。 





















































对 于 实现 了 predict_proba 方法 的 模型 来 说 ， 选 择 较 值 可 能 更 简单 ， 因 为 predict_proba 的 输 
出 固定 在 0 到 1 的 范围 内 ， 表 示 的 是 概率 。 默 认 情 况 下 ，0.5 的 国 值 表示 ， 如 果 模 型 以 超过 
50% 的 概率 “确信 ”一 个 点 属于 正 类 ， 那 么 就 将 其 划 为 正 类 。 增 大 这 个 闵 值 意味 着 模型 需要 
更 加 确信 才能 做 出 正 类 的 判断 ( 较 低 程度 的 确信 就 可 以 做 出 反 类 的 判断 )。 虽 然 使 用 概率 可 
能 比 使 用 任意 阅 值 更 加 直观 ， 但 并 非 所 有 模型 都 提供 了 不 确定 性 的 实际 模型 (一 棵 生长 到 最 
大 深度 的 DecisionTree 总 是 100% 确信 其 判断 ， 即 使 很 可 能 是 错 的 )。 这 与 校准 (calibration) 
的 概念 相关 : 校准 模型 是 指 能 够 为 其 不 确定 性 提供 精确 度量 的 模型 。 校 准 的 详细 讨论 超出 
了 本 书 的 范围 ， 但 你 可 以 在 Alexandru Niculescu-Mizil 和 Rich Caruana 的 “Predicting Good 
Probabilities with Supervised Learning” (http:/www.machinelearning.org/proceedings/icml2005/ 
papers/079_GoodProbabilities_NiculescuMizilCaruana.pdf) 这 篇 文章 中 找到 更 多 内 容 。 


5. 准确 率 -召回 率 曲线 

如 前 所 述 ， 改 变 模 型 中 用 于 做 出 分 类 决策 的 国 值 ， 是 一 种 调节 给 定 分 类 器 的 准确 率 和 召回 
率 之 间 折 中 的 方法 。 你 可 能 希望 仅 遗 漏 不 到 10% 的 正 类 样本 ， 即 希望 召回 率 能 达到 90%。 
这 一 决策 取决 于 应 用 ， 应 该 是 由 商业 目标 驱动 的 。 一 旦 设 定 了 一 个 有 具体 目标 (比如 对 某 一 
类 别 的 特定 召回 率 或 准确 率 ) ， 就 可 以 适当 地 设 定 一 个 国 值 。 总 是 可 以 设置 一 个 国 值 来 请 
足 特定 的 目标 ， 比 如 90% 的 召回 率 。 难 点 在 于 开发 一 个 模型 ， 在 满足 这 个 装 值 的 同时 仍 有 具 
有 合理 的 准确 率 如 果 你 将 所 有 样本 都 划 为 正 类 ， 那 么 将 会 得 到 100% 的 召回 率 ， 但 你 
的 模型 毫 无 用 处 。 

对 分 类 器 设置 要 求 (比如 90% 的 召回 率 ) 通常 被 称 为 设置 工作 点 (operating point) 。 在 业 
务 中 国定 工作 点 通常 有 助 于 为 客户 或 组 织 内 的 其 他 小 组 提供 性 能 保证 。 


在 开发 新 模型 时 ， 通 常 并 不 完全 清楚 工作 点 在 哪里 。 因 此 ， 为 了 更 好 地 理解 建 模 问 题 ， 很 
有 局 发 性 的 做 法 是 ， 同 时 查看 所 有 可 能 的 国 值 或 准确 率 和 召回 率 的 所 有 可 能 折 中 。 利 用 
一 种 叫 作 准确 率 - 召回 率 曲 线 (precision-recall curve) 的 工具 可 以 做 到 这 一 点 。 你 可 以 在 
sklearn.metrics 模块 中 找到 计算 准确 率 - 召回 率 曲线 的 函数 。 这 个 国 数 需要 真实 标签 与 预 
测 的 不 确定 度 ， 后 者 由 decision_function 或 predict_proba 给 出 : 
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In[54] : 
from sklearn.metrics import precision recall_curve 
precision, recall, thresholds = precision recall curvel( 
y_test, svc.decision function(X_test)) 


precision_recall_curve 函数 返回 一 个 列表 ， 包 含 按 顺 序 排序 的 所 有 可 能 闵 值 (在 决策 





国 数 中 出 现 的 所 有 值 ) 对 应 的 准确 率 和 召回 率 和 这样 我 们 就 可 以 级 会 制 一 条 曲线 ， 如 图 








5-13 所 示 : 


In[55]: 
# 使 用 更 多 数据 点 来 得 到 更 加 平滑 的 曲线 
X, y = make_blobs(n_samples=(4000, 500), centers=2, cluster_std=[7.0, 2], 
random_state=22) 
X_train, X_test, y_train, y_test = train test_split(X, y, random_state=0) 
svc = SVC(gamma=.05).fit(X_train, y_train) 
precision, recall, thresholds = precision recall curvel( 
y_test, svc.decision function(X_test)) 
# 找到 最 接近 于 9 的 阅 值 
close_ zero = np.argmin(np.abs(thresholds)) 
plt.plot(precision[close zero], recall[close zero], '0', markersize=10, 
label="threshold zero", fillstyle="none", c='k', mew=2) 









































plt.plot(precision, recall, label="precision recall curve") 
plt.xlabel("Precision") 
plt.ylabel("Recall") 
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5-13: SVC (gamma=0.05) 的 准确 率 - 召回 率 曲线 


图 5-13 中 曲线 上 的 每 一 个 点 都 对 应 decision_function 的 一 个 可 能 的 国 值 。 例 如 ， 我 们 可 
以 看 到 ， 在 准确 率 约 为 0.75 的 位 置 对 应 的 召回 率 为 04。 哇 色 圆圈 表示 的 是 阔 值 为 0 的 点 ， 

















0 是 decision_function 的 默认 国 值 。 这 个 点 是 在 调用 predict 方法 时 所 选择 的 折 中 点 


曲线 越 靠 近 右 上 角 ， 则 分 类 器 越 好 。 右 上 角 的 点 表示 对 于 同一 个 国 值 ， 准 确 率 和 召回 
很 高 。 曲 线 从 左上 和 角 开 始 ， 这 里 对 应 于 非常 低 的 国 值 ， 将 所 有 样本 都 划 为 正 类 。 提 









































率 都 


高 国 值 


可 以 让 曲线 向 准确 率 更 高 的 方向 移动 ， 但 同时 召回 率 降低 。 继 续 增 大 国 值 ， 大 多 数 被 划 为 

















正 类 的 点 都 是 真正 例 ， 此 时 准确 率 很 高 ， 但 召回 率 更 低 。 随 着 准确 率 的 升 高 ， 模 型 越 








保持 较 高 的 召回 率 ， 则 模型 越 好 。 





能 够 








进一步 观察 这 条 曲线 ， 可 以 发 现 ， 利 用 这 个 模型 可 以 得 到 约 0.5 的 准确 率 ， 同 时 保持 很 高 
的 召回 率 。 如 果 我 们 想 要 更 高 的 准确 率 ， 那 么 就 必须 牺牲 很 多 召回 率 。 换 句 话说， 曲线 左 
侧 相对 平坦 ， 说 明 在 准确 率 提高 的 同时 召回 率 没 有 下 降 很 多 。 当 准确 率 大 于 0.5 之 后 ， 准 
确 率 每 增加 一 点 都 会 导致 召回 率 下 降 许 多 。 


不 同 的 分 类 器 可 能 在 曲线 上 不 同 的 位 置 〈 即 在 不 同 的 工作 点 ) 表现 很 好 。 我 们 来 比较 
一 下 在 同一 数据 集 上 训练 的 SVM 与 随机 森林 。RandomForestClassifier 没有 decision_ 
function， 只 有 predict_proba。precision_recall_curve 图 数 的 第 二 个 参数 应 该 是 正 类 
(类 别 1) 的 确定 性 度量 ， 所 以 我 们 传 入 样本 属于 类 别 1 的 概率 ( 即 rf.predict_proba(X_ 
test)[:，1])。 二 分 类 问题 的 predict_proba 的 默认 浆 值 是 0.5， 所 以 我 们 在 曲线 上 标 出 这 
个 点 〈 见 图 5-14) : 


In[56] : 
from sklearn.ensemble import RandomForestClassifier 

































































rf = RandomForestClassifier(n_estimators=100, random_state=0, max_features=2) 
rf.fit(X_train, y_train) 


# RandomForestClassifier 有 predict_proba, 但 没有 decision_function 
precision_rf, recall_rf, thresholds_rf = precision_recall_curvel 
y_test, rf.predict proba(X_test)[:, 1]) 


plt.plot(precision, recall, label="svc" 


plt.plot(precision[close zero], recall[close zero], '0', markersize=10, 
label="threshold zero svc", fillstyle="none", c='k', mew=2) 


plt.plot(precision rf, recall_rf, label="rf") 


close default_rf = np.argmin(np.abs(thresholds_rf - 0.5)) 

plt.plot(precision rf[close default_rf], recall_rf[close default_rf], '^', c='k', 
markersize=10, label="threshold 0.5 rf", fillstyle="none", mew=2) 

plt.xlabel("Precision") 

plt.ylabel("Recall") 

plt.legend(loc="best") 
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图 5-14: 比较 SVM 与 随机 森林 的 准确 率 - 召回 率 曲线 
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从 这 张 对 比 图 中 可 以 看 出 ， 随 机 森林 在 极 值 处 〈 要 求 很 高 的 召回 率 或 很 高 的 准确 率 ) 的 表 
现 更 好 。 在 中 间 位 置 (准确 率 约 为 0.7) SVM 的 表现 更 好 。 如 果 我 们 只 查看 fi- 分 数 来 比较 
二 者 的 总 体 性 能 ， 那 么 可 能 会 遗漏 这 些 细节 。 帮 - 分数 只 反映 了 准确 率 - 召回 率 曲线 上 的 一 
个 点 ， 即 默认 国 值 对 应 的 那个 点 : 
In[57] : 

print("f1_score of random forest: {:.3f}".format( 


fl1_score(y_test，rf.predict(X_test)))) 
print("f1_score of svc: {:.3f}".format(f1_score(y_test, svc.predict(X_test)))) 




















Out[57] : 
f1_score of random forest: 0.610 
f1_score of svc: 0.656 


比较 这 两 条 准确 率 -召回 率 曲 线 ， 可 以 为 我 们 提供 大 量 详细 的 洞 见 ， 但 这 是 一 个 相当 麻烦 的 
过 程 。 对 于 自动 化 模型 对 比 ， 我 们 可 能 希望 总 结 曲线 中 包含 的 信息 ， 而 不 限于 某 个 特定 的 国 
值 或 工作 点 。 总 结 准确 率 - 召回 率 曲 线 的 一 种 方法 是 计算 该 曲线 下 的 积分 或 面积 ， 也 叫 作 
平均 准确 率 (average precision) 。* 你 可 以 使 用 average_precision_score 国 数 来 计算 平均 准确 
率 。 因 为 我 们 要 计算 准确 率 - 名 回 率 曲 线 并 考虑 多 个 赋值 ， 所 以 需要 向 average_precision_ 
score 传 入 decision_function 或 predict_proba 的 结果 ， 而 不 是 predict 的 结果 : 


In[58] : 
from sklearn.metrics import average_precision_score 
ap_rf = average_precision score(y_test, rf.predict proba(X_test)[:, 1]) 
ap_svc = average precision score(y_test, svc.decision function(X_test)) 
print("Average precision of random forest: {:.3f}".format(ap_rf)) 
print("Average precision of svc: {:.3f}".format(ap_svc)) 

























































































Out[58]: 
Average precision of random forest: 0.666 
Average precision of svc: 0.663 


在 对 所 有 可 能 的 闪 值 进行 平均 时 ， 我 们 看 到 随机 森林 和 svc 的 表现 差不多 好 ， 随 机 森林 稍 
稍 领先 。 这 与 前 面 从 f1_score 中 得 到 的 结果 大 为 不 同 。 因 为 平均 准确 率 是 从 0 到 1 的 曲线 
下 的 面积 ， 所 以 平均 准确 率 总 是 返回 一 个 在 0 (最 差 ) 到 1 (最 好 ) 之 间 的 值 。 随 机 分 配 
decision_function 的 分 类 器 的 平均 准确 率 是 数据 集中 正 例 样本 所 占 的 比例 。 


6. 受 试 者 工作 特征 (ROC) 与 AUC 
还 有 一 种 常用 的 工具 可 以 分 析 不 同 国 值 的 分 类 器 行为 : 受 试 者 工作 特征 曲线 (receiver 
operating characteristics curve)， 简 称 为 ROC 曲线 (ROC curve)。 与 准确 率 - 召回 率 曲 
线 类 似 ，ROC 曲线 考虑 了 给 定 分 类 器 的 所 有 可 能 的 半 值 ， 但 它 显 示 的 是 假 正 例 率 (false 
positive rate，FPR) 和 真正 例 率 (true positive rate，TPR)， 而 不 是 报告 准确 率 和 召回 率 。 
回想 一 下 ， 真 正 例 率 只 是 名 回 率 的 另 一 个 名 称 ， 而 假 正 例 率 则 是 假 正 例 占 所 有 反 类 样本 的 
比例 : 






































































































































注 8: 准确 率 -召回 率 曲线 下 的 面积 与 平均 准确 率 之 间 还 有 一 些 较 小 的 技术 区 别 。 但 这 个 解释 表达 的 是 大 致 
思路 。 











226 第 5 章 
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FPR = Fp 41N 


可 以 用 roc_curve 函数 来 计算 ROC 曲线 ( 见 图 5-15): 
In[59]: 


from sklearn.metrics import roc_curve 
fpr, tpr, thresholds = roc_curve(y_test, svc.decision function(X_test)) 


plt.plot(fpr, tpr, Label="ROC Curve") 

plt.xlabel("FPR") 

plt.ylabel("TPR (recall)'") 

# 找到 最 接近 于 9 的 闵 值 

close zero = np.argmin(np.abs(thresholds)) 

plt.plot(fpr[close zero], tpr[close zero], '0', markersize=10, 
label="threshold zero", fillstyle="none", c='k', mew=2) 

plt. legend(loc=4) 
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5-15: SVM 的 ROC 曲线 














对 于 ROC 曲线 ,理想 的 曲线 要 靠近 左上 角 : 你 希望 分 类 器 的 召回 率 很 高 ， 同 时 保持 假 正 
例 率 很 低 。 从 曲线 中 可 以 看 出 ， 与 默认 阔 值 0 相 比 ， 我 们 可 以 得 到 明显 更 高 的 召回 率 ( 约 


0.9)， 























而 FPR 仅 稍 有 增加 。 最 接近 左上 角 的 点 可 能 是 比 默认 选择 更 好 的 工作 点 。 同 样 请 注 








意 ， 不 应 该 在 测试 集 上 选择 园 值 ， 而 是 应 该 在 单独 的 验证 集 上 选择 。 


图 5- 








16 给 出 了 随机 森林 和 SVM 的 ROC 曲线 对 比 : 


In[60]: 


from sklearn.metrics import roc_curve 
fpr_rf, tpr_rf, thresholds_rf = roc curvel(y test, rf.predict proba(X_test)[:, 1]) 


plt.plot(fpr, tpr, label="ROC Curve SVC") 
plt.plot(fpr_rf, tpr_rf, label="ROC Curve RF") 


plt.xlabel("FPR") 

plt.ylabel("TPR (recall)'") 

plt.plot(fpr[close_zero], tpr[close zero], '0', markersize=10, 
label="threshold zero SVC", fillstyle="none", c='k', mew=2) 
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close default_rf = np.argmin(np.abs(thresholds_rf - 0.5)) 
plt.plot(fpr_rf[close default_rf], tpr[close default_rf], '^', markersize=10, 
label="threshold 0.5 RF", fillstyle="none", c='k', mew=2) 


plt. legend(loc=4) 
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5-16: 比较 SVM 和 随机 森林 的 ROC 曲线 








与 准确 率 - 召回 率 曲 线 一 样 ， 我 们 通常 希望 使 用 一 个 数字 来 总 结 ROC 曲线 ， 即 曲线 下 的 
面积 [通常 被 称 为 AUC (area under the curve) ， 这 里 的 曲线 指 的 就 是 ROC 曲线 ] 。 我 们 可 
以 利用 roc_auc_score 国 数 来 计算 ROC 曲线 下 的 面积 : 


In[61]: 
from sklearn.metrics import roc_auc_score 
rf_auc = roc auc_ score(y_test, rf.predict proba(X_test)[:, 1]) 
SsvC_auc = roc_ auc _ scorel(y_test, svc.decision function(X_test)) 
print("AUC for Random Forest: {:.3f}".format(rf_auc)) 
print("AUC for SVC: {:.3f}".format(svc_auc)) 


















































Out[61] : 
AUC for Random Forest: 0.937 
AUC for SVC: 0.916 


利用 AUC 分 数 来 比较 随机 森林 和 SVM， 我 们 发 现 随机 森林 的 表现 比 SVM 要 略 好 一 些 。 
回想 一 下 ， 由 于 平均 准确 率 是 从 0 到 1 的 曲线 下 的 面积 ， 所 以 平均 准确 率 总 是 返回 一 个 0 
(最 差 ) 到 1 (最 好 ) 之 间 的 值 。 随 机 预测 得 到 的 AUC 总 是 等 于 0.5， 无 论 数 据 集中 的 类 别 
多 么 不 平衡 。 对 于 不 平衡 的 分 类 问题 来 说 ，AUC 是 一 个 比 精度 好 得 多 的 指标 。AUC 可 以 
被 解释 为 评估 正 例 样 本 的 排名 (ranking)。 它 等 价 于 从 正 类 样本 中 随机 挑选 一 个 点 ， 由 分 
类 器 给 出 的 分 数 比 从 反 类 样本 中 随机 挑选 一 个 点 的 分 数 更 高 的 概率 。 因 此 ，AUC 最 高 为 
1， 这 说 明 所 有 正 类 点 的 分 数 高 于 所 有 有 反 类 点 。 对 于 不 平衡 类 别 的 分 类 问题 ,使 用 AUC 进 
行 模型 选择 通常 比 使 用 精度 更 有 意义 。 

我 们 回 到 前 面 研究 过 的 例子 : 将 digits 数据 集中 的 所 有 9 与 所 有 其 他 数据 加 以 区 分 。 我 
们 将 使 用 SVM 对 数据 集 进 行 分 类 ， 分 别 使 用 三 种 不 同 的 内 核 宽度 (gamma) 设置 (参见 
5-17): 









































In[62] : 
y= 


digits.target == 9 


X_train, X_test, y_train, y_test = train test_split( 


plt. 


for 


plt. 
plt. 
plt. 
plt. 
plt. 


Out[62] : 


digits.data, y, random_state=0) 
figure() 


gamma in [1, 0.05, 0.01]: 

svc = SVC(gamma=gamma).fit(X_train, y_train) 

accuracy = svc.score(X_ test, y_test) 

auc = roc_auc_scorel(y_test, svc.decision function(X_test)) 

fpr, tpr, _ = roc_curve(y_test , svc.decision function(X_test)) 
print("gamma = {:.2f} accuracy = {:.2f} AUC = {:.2f}".format( 
gamma, accuracy, auc)) 

plt.plot(fpr, tpr, label="gamma={:.3f}".format(gamma)) 
xlabel("FPR") 

ylabel("TPR") 


xlim(-0.01, 1) 

ylim(0, 1.02) 

legend(loc="best") 
gamma = 1.00 accuracy = 0.90 AUC = 0.50 
gamma = 0.05 accuracy = 0.90 AUC = 0.90 


gamma = 0.01 accuracy = 0.90 AUC = 1.00 

















5-17: 对比 不 同 gamma 值 的 SVM 的 ROC 曲线 ” 


对 于 三 种 不 同 的 gamma 设置 ， 其 精度 是 相同 的 ， 都 等 于 90%。 这 可 能 与 随机 选择 的 性 能 相 
同 ， 也 可 能 不 同 。 但 是 观察 AUC 以 及 对 应 的 曲线 ,我 们 可 以 看 到 三 个 模型 之 间 有 明显 的 























区 别 。 对 于 gamma=1.0，AUC 实际 上 处 于 随机 水 平 ， 即 decision_function 的 输出 与 随机 
结果 一 样 好 。 对 于 gamma=0.05， 性 能 大 幅 提 升 至 AUC 等 于 0.9。 最 后 ， 对 于 gamma=0.01， 





ee 





EE 9; 图 5-17 与 GitHub 仓库 中 的 图 像 不 一 致 ( 见 https://github.com/amueller/introduction_to_ml_with_python/ 





blob/master/05-model-evaluation-and-improvement.ipynb 的 Out[65]) ， 译 者 得 到 的 图 像 与 GitHub 仓库 中 


的 一 














致 。 但 如 果 用 GitHub 的 这 张 图 ， 下 面 的 解释 文字 又 对 不 上 了 。 一 一 译 者 注 
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我 们 得 到 等 于 1.0 的 完美 AUC。 这 意味 着 根据 决策 函数， 所 有 正 类 点 的 排名 要 高 于 所 有 反 
类 点 。 换 句 话 说， 利用 正确 的 冰 值 ， 这 个 模型 可 以 对 所 有 数据 进行 完美 分 类 ! "知道 这 一 
点 ， 我 们 可 以 调节 这 个 模型 的 国 值 并 得 到 很 好 的 预测 结果 。 如 果 我 们 仅 使 用 精度 ， 那 么 将 
永远 不 会 发 现 这 一 点 。 

因此 ， 我 们 强烈 建议 在 不 平衡 数据 上 评估 模型 时 使 用 AUC。 但 请 记 住 ，AUC 没有 使 用 默 
认 国 值 ， 因 此 ， 为 了 从 高 AUC 的 模型 中 得 到 有 用 的 分 类 结果 ， 可 能 还 需要 调节 决策 国 值 。 


5.3.3 ”多 分 类 指标 
前 面 我 们 已 经 深入 讨论 了 二 分 类 任务 的 评估 ， 下 面 来 看 一 下 对 多 分 类 问题 的 评估 指标 。 多 
分 类 问题 的 所 有 指标 基本 上 都 来 自 于 二 分 类 指标 ， 但 是 要 对 所 有 类 别 进 行 平均 。 多 分 类 的 
精度 被 定义 为 正确 分 类 的 样本 所 占 的 比例 。 同 样 ， 如 果 类 别 是 不 平衡 的 ， 精 度 并 不 是 很 
好 的 评估 度量 。 想 象 一 个 三 分 类 问题 ， 其 中 85% 的 数据 点 属于 类 别 A，10% 属于 类 别 B， 
5% 属于 类 别 C。 在 这 个 数据 集 上 85% 的 精度 说 明了 什么 ? 一般 来 说 ， 多 分 类 结果 比 二 分 
类 结果 更 加 难以 理解 。 除 了 精度 ， 常 用 的 工具 有 混 请 和 矩阵 和 分 类 报告 ， 我 们 在 上 一 节 二 分 
类 的 例子 中 都 见 过 。 下 面 我 们 将 这 两 种 详细 的 评估 方法 应 用 于 对 digits 数据 集中 10 种 不 
同 的 手写 数字 进行 分 类 的 任务 : 
In[63] : 

from sklearn.metrics import acCuracy_score 

X_train, X_test, y_train, y_test = train_test_spLit( 

digits.data, digits.target, random_state=0) 

Lr = LogisticRegression().fit(X_train, y_train) 

pred = lr.predict(X_test) 

print("Accuracy: {:.3f}".format(accuracy_score(y_test, pred))) 

print("Confusion matrix:\n{}".format(confusion_matrix(y_test, pred))) 













































































Out[63] : 
Accuracy: 0.953 
Confusion matrix: 


[[37 06 06 606 06000 0 0] 
[0639 60060600 20 2 0] 
[6041 30906000 0 0] 
[60 143 0000 0 1] 
[60600 038 0000 0 0] 
[06 100 0470 0 0 0] 
[609600 0 052 0 0 0] 
[06 10 110 045 0 0] 
[63 1000 0 043 1] 
[60600 110 10 0 144]] 


模型 的 精度 为 95.3%， 这 表示 我 们 已 经 做 得 相当 好 了 。 混 淆 矩阵 为 我 们 提供 了 更 多 细 市 。 
与 二 分 类 的 情况 相同 ， 每 一 行 对 应 于 真实 标签 ， 每 一 列 对 应 于 预测 标签 。 图 5-18 给 出 了 一 
张 视觉 上 更 加 吸引 人 的 图 像 : 























注 10: 仔细 观察 ganma=0.91 的 曲线 ， 你 可 以 看 到 左上 角 有 一 个 很 小 的 弯曲 。 这 说 明 至 少 有 一 个 点 的 排名 是 
错 的 。AUC 等 于 1.0 是 舍 入 到 第 二 位 小 数 的 结果 。 




















A 
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In[64] : 
scores_image = mglearn.tools.heatmap( 
confusion matrix(y_test, pred), xlabel='Predicted label', 
ylabel='True label', xticklabels=digits.target_names, 
yticklabels=digits.target_ names, cmap=plt.cm.gray_r, fmt="%d") 
plt.title("Confusion matrix") 
plt.gca().invert yaxis() 





Confusion matrix 





0 医 忆 
1 上 0 医 
2 上 0 0 
3 上 0 0 1 四 

号 4H0 0 0 0 

3 5hH0 1 0 0 

后 
6|0 0 0 0 0 
ommon 0 0 EE 
8H0 3 1 0 0 0 0 ks 
9Ho 0 0 1 uo on 

0 1 2 34 5 6 7 8 9 
Predicted label 











图 5-18: 10 个 数字 分 类 任务 的 混淆 矩阵 


对 于 第 一 个 类 别 (数字 0) ， 它 包含 37 个 样本 ， 所 有 这 些 样本 都 被 划 为 类 别 0〈 即 类 别 0 
没有 假 反 例 )。 我 们 之 所 以 可 以 看 出 这 一 点 ， 是 因为 混淆 矩阵 第 一 行 中 其 他 所 有 元 素 都 为 
0。 我 们 还 可 以 看 到 ， 没 有 其 他 数字 被 误 分 类 为 类 别 0， 这 是 因为 混淆 矩阵 第 一 列 中 其 他 所 
有 元 素 都 为 0( 即 类 别 0 没 有 假 正 例 )。 但 是 有 些 数字 与 其 他 数字 混在 一 起 一 一 比如 数字 2 
(第 3 行 )， 其 中 有 3 个 被 划分 到 数字 3 中 (第 4 列 )。 还 有 一 个 数字 3 被 划分 到 数字 2 中 
(第 4 行 第 3 列 )， 一 个 数字 8 被 划分 到 数字 2 中 (第 9 行 第 3 列 )。 

利用 classification_report 国 数 ， 我 们 可 以 计算 每 个 类 别 的 准确 率 、 召 回 率 和 广 分 数 : 


In[65] : 
print(classification_report(y_test, pred)) 























Out[65] : 

precision recall fl-score support 

0 1.00 1.00 1.00 37 

1 0.89 0.91 0.90 43 

2 0.95 0.93 0.94 44 

3 0.90 0.96 0.92 45 

4 QO.97 1.00 0.99 38 

5 0.98 0.98 0.98 48 

6 0.96 1.00 0.98 52 

7 1.00 0.94 0.97 48 

8 0.93 0.90 0.91 48 

9 0.96 0.94 0.95 47 

avg / total 0.95 0.95 0.95 450 
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不 出 所 料 ， 类 别 0 的 准确 率 和 召回 率 都 是 完美 的 1， 因为 这 个 类 别 中 没有 混淆 。 男 一 方面 ， 
对 于 类 别 7， 准 确 率 为 1， 这 是 因为 没有 其 他 类 别 被 误 分 类 为 7， 而 类 别 6 没有 假 反 例 ， 所 
以 召回 率 等 于 1。 我 们 还 可 以 看 到 ， 模 型 对 类 别 8 和 类 别 3 的 表现 特别 不 好 。 

对 于 多 分 类 问题 中 的 不 平衡 数据 集 ， 最 常用 的 指标 就 是 多 分 类 版 本 的 , 广 分 数 。 多 分 类 大 分 
数 背后 的 想法 是 ， 对 每 个 类 别 计算 一 个 二 分 类 大 分 数 ， 其 中 该 类 别 是 正 类 ， 其 他 所 有 类 别 
组 成 反 类 。 然 后 ， 使 用 以 下 策略 之 一 对 这 些 按 类 别 . 广 分 数 进 行 平均 。 


。“ 宏 ”(macro) 平均 : 计算 未 加 权 的 按 类 别 广 分 数 。 它 对 所 有 类 别 给 出 相同 的 权重 ， 无 
论 类 别 中 的 样本 量 大 小 。 

。“ 加 权 ”(weighted) 平均 : 以 每 个 类 别 的 支持 作为 权重 来 计算 按 类 别 广 分 数 的 平均 值 。 
分 类 报告 中 给 出 的 就 是 这 个 值 。 

。“ 微 ”(micro) 平均 : 计算 所 有 类 别 中 假 正 例 、 假 反例 和 真正 例 的 总 数 ， 然 后 利用 这 些 
计数 来 计算 准确 率 、 召 回 率 和 . 广 分 数 。 

如 果 你 对 每 个 样本 等 同 看 待 ， 那 么 推荐 使 用 “ 微 ” 平 均 矿 分 数 ， 如 果 你 对 每 个 类 别 等 同 看 

待 ， 那 么 推荐 使 用 “ 安 ” 平 均 广 分 数 : 

In[66] : 
print("Micro average f1 score: {:.3f}".format 

(f1_score(y_test, pred, average="micro"))) 


print("Macro average fl score: {:.3f}".format 
(f1_score(y_test, pred, average="macro"))) 


















































Out[66] : 
Micro average f1 score: 0.953 
Macro average f1 score: 0.954 


5.3.4 回归 指标 

对 回归 问题 可 以 像 分 类 问题 一 样 进行 详细 评估 ， 例 如 ， 对 目标 值 估 计 过 高 与 目标 值 估计 过 
低 进行 对 比分 析 。 但 是 ， 对 于 我 们 见 过 的 大 多 数 应 用 来 说 ， 使 用 默认 R* 就 足够 了 ， 它 由 
所 有 回归 器 的 score 方法 给 出 。 业 务 决 策 有 时 是 根据 均 方 误差 或 平均 绝对 误差 做 出 的 ， 这 
可 能 会 鼓励 人 们 使 用 这 些 指标 来 调节 模型 。 但 是 一 般 来 说 ， 我 们 认为 R? 是 评估 回归 模型 
的 更 直观 的 指标 。 


5.3.5 ”在 模型 选择 中 使 用 评估 指标 


前 面 详 细 讨 论 了 许多 种 评估 方法 ， 以 及 如 何 根据 真实 情况 和 具体 模型 来 应 用 这 些 方法 。 但 
我 们 通常 希望 ， 在 使 用 GridsearchCV 或 cross_val_score 进行 模型 选择 时 能 够 使 用 AUC 
等 指标 。 幸 运 的 是 ，scikit-tLearn 提供 了 一 种 非常 简单 的 实现 方法 ， 就 是 scoring 参数 ， 
它 可 以 同时 用 于 GridsearchCV 和 cross_val_score。 你 只 需 提 供 一 个 字符 串 ， 用 于 描述 想 
要 使 用 的 评估 指标 。 举 个 例子 ， 我 们 想 用 AUC 分 数 对 digits 数据 集中 “9 与 其 他 ”任务 
上 的 SVM 分 类 器 进行 评估 。 想 要 将 分 数 从 默认 值 (精度 ) 修改 为 AUC， 可 以 提供 "roc_ 
auc" 作为 scoring 参数 的 值 : 































































































In[67] : 
# 分 类 问题 的 默认 评分 是 精度 
print("Default scoring: {}".format( 
cross_val_score(SVC(), digits.data, digits.target == 9))) 
# 指定 "scoring="accuracy" 不 会 改变 结果 
explicit accuracy = cross_val_score(SVC(), digits.data, digits.target == 9， 
scoring="accuracy") 
print("Explicit accuracy scoring: {}".format(explicit_ accuracy)) 
roc_auc = Ccross_val_score(SVC(), digits.data, digits.target == 9， 
scoring="roc_auc" 
print("AUC scoring: {}".format(roc_auc)) 


Out[67] : 
Default scoring: [ 0.9 0.9 0.9] 


Explicit accuracy scoring: [ 0.9 0.9 0.9] 
AUC scoring: [ 0.994 0.99 0.996] 


类 似 地 ， 我 们 可 以 改变 GridsearchCV 中 用 于 选择 最 佳 参 数 的 指标 : 


In[68]: 
X_train, X_test, y_train, y_test = train test_split( 
digits.data, digits.target == 9, random_state=0) 





# 我 们 给 出 了 不 太 好 的 网 格 来 说 明 : 
param_grid = {'gamma': [0.0001, 0.01, 0.1, 1, 10]} 
# 使 用 默认 的 精度 : 
grid = GridSearchCV(SVC(), param_grid=param_grid) 
grid.fit(X_train, y_train) 
print("Grid-Search with accuracy") 
print("Best parameters:", grid.best_params_ ) 
print("Best cross-validation score (accuracy)): {:.3f}".format(grid.best_score_)) 
print("Test set AUC: {:.3f}".format( 
roc_auc_scorel(y_test, grid.decision function(X_test)))) 
print("Test set accuracy: {:.3f}".format(grid.score(X_test, y_test))) 








Out[68]: 
Grid-Search with accuracy 
Best parameters: {'gamma': 0.0001} 
Best cross-validation score (accuracy)): 0.970 
Test set AUC: 0.992 
Test set acCuracy: 0.973 


In[69]: 
# 使 用 AUC 评 分 来 代替 : 
grid = GridSearchCV(SVC(), param_grid=param_grid, scoring="roc_auc") 
grid.fit(X_train, y_train) 
print("\nGrid-Search with AUC") 
print("Best parameters:", grid.best_ params_) 
print("Best cross-validation score (AUC): {:.3f}".format(grid.best score_)) 
print("Test set AUC: {:.3f}".format( 
roc_auc_score(y_test, grid.decision function(X_test)))) 
print("Test set accuracy: {:.3f}".format(grid.score(X test, y_test))) 
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Out[69] : 
Grid-Search with AUC 
Best parameters: {'gamma': 0.01} 
Best cross-validation score (AUC): 0.997 
Test set AUC: 1.000 
Test set acCuracy: 1.000 


在 使 用 精度 时 ， 选 择 的 参数 是 gamma=0.0091， 而 使 用 AUC 时 选择 的 参数 是 gamma=0.01。 
在 两 种 情况 下 ， 交 又 验证 精度 与 测试 集 精度 是 一 臻 的。 但是， 使 用 AUC 找到 的 参数 设置 ， 
对 应 的 AUC 更 高 ， 甚 至 对 应 的 精度 也 更 高 。” 

对 于 分 类 问题 ，scoring 参数 最 重要 的 取 值 包括 : accuracy (默认 值 )、roc_auc (ROC 
线 下 方 的 面积 )、average_precision 《准确 率 - 召回 率 曲 线 下 方 的 面积 )、f1、fl_macro、 
f1_micro 和 f1_weighted (这 四 个 是 二 分 类 的 fi- 分 数 以 及 各 种 加 权 变 体 )。 对 于 回归 问题 ， 
最 常用 的 取 值 包括 : r2 (R* 分数)、mean_squared_error ( 均 方 误差 ) 和 mean_absolute_ 
error (平均 绝对 误差 )。 你 可 以 在 文档 中 找到 所 支持 参数 的 完整 列表 (http://scikit-learn. 
org/stable/modules/model_evaluation.html#the-scoring-parameter-defining-model-evaluation- 
rules)， 也 可 以 查看 metrics.scorer 模块 中 定义 的 SCORER 字典 。 


In[70]: 
from sklearn.metrics.scorer import SCORERS 
print("Available scorers:\n{}".format(sorted(SCORERS.keys()))) 





















































Out[70] : 

Available scorers: 

['accuracy', 'adjusted_rand_score', 'average precision', 'f1i', 'f1_macro', 
'f1i_micro', 'f1i_samples', 'f1 weighted', 'log_loss', 'mean_absolute error', 
'mean_squared_error', 'median absolute error', 'precision', 'precision macro', 
'precision micro', 'precision samples', 'precision weighted', 'r2', 'recall', 
'recall_macro', 'recall micro', 'recall_samples', 'recall weighted', 'roc_auc'] 


5.4 小结 与 展望 


本 章 讨 论 了 交叉 验证 、 网 格 搜索 和 评估 指标 等 内 容 ， 它 们 是 评估 与 改进 机 器 学 习 算法 
的 基础 。 本 章 介 绍 的 工具 ， 以 及 第 2、3 章 介绍 的 算法 ， 是 每 位 机 器 学 习 从 业者 赖 以 生 
存 的 工具 。 


本 章 有 两 个 特别 的 要 点 ， 这 里 需要 重复 一 下 ， 因 为 它们 经 常 被 新 的 从 业 人 员 所 忽视 。 第 一 
个 要 点 与 交叉 验证 有 关 。 交 叉 验 证 或 者 使 用 测试 集 让 我 们 可 以 评估 一 个 机 器 学 习 模 型 未 来 
的 表现 。 但 是 ， 如 果 我 们 使 用 测试 集 或 交叉 验证 来 选择 模型 或 选择 模型 参数 ， 那 么 我 们 就 
“用 完了 ”测试 数据 ， 而 使 用 相同 的 数据 来 评估 模型 未 来 的 表现 将 会 得 到 过 于 乐观 的 估计 。 
因此 ， 我 们 需要 将 数据 集 划 分 为 训练 数据 、 验 证 数据 与 测试 数据 ， 其 中 训练 数据 用 于 模型 
构建 ， 验 证 数据 用 于 选择 模型 与 参数 ， 视 试 数据 用 于 模型 评估 。 我 们 可 以 用 交叉 验证 来 代 
































注 11: 利用 AUC 找到 了 精度 更 高 的 模型 ， 这 可 能 是 因为 对 于 不 平衡 数据 来 说 ， 精 度 并 不 是 模型 性 能 的 良 
好 度量 。 
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禁 每 一 次 简单 的 划分 。 最 常用 的 形式 (如 前 所 述 ) 是 训练 / 测试 划分 用 于 评估 ， 然 后 对 训 
练 集 使 用 交叉 验证 来 选择 模型 与 参数 。 


第 二 个 要 点 与 用 于 模型 选择 与 模型 评估 的 评估 指标 或 评分 函数 有 关 。 如 何 利 用 机 器 学 习 模 
型 的 预测 结果 做 出 商业 决策 ， 其 理论 有 些 超出 了 本 书 范围 。 但是， 机 器 学 习 任 务 的 最 终 
目标 很 少 是 构建 一 个 高 精度 的 模型 。 一 定 要 确保 你 用 于 模型 评估 与 选择 的 指标 能 够 很 好 地 
替代 模型 的 实际 用 途 。 在 实际 当中 ， 分 类 问题 很 少 会 遇 到 平衡 的 类 别 ， 假 正 例 和 假 反例 也 
通常 具有 非常 不 同 的 后 果 。 你 一 定 要 了 解 这 些 后 果 ， 并 选择 相应 的 评估 指标 。 

到 目前 为 止 ， 我 们 介绍 的 模型 评估 与 选择 技术 都 是 数据 科学 家 工具 箱 中 最 重要 的 工具 。 本 
章 介 绍 的 网 格 搜索 与 交叉 验证 只 能 应 用 于 单个 监督 模型 。 但 是 我 们 前 面 看 到 ， 许 多 模型 都 
需要 预 处 理 ， 在 某 些 应 用 中 〈 比 如 第 3 章 人 脸 识别 的 例子 )， 提 取 数 据 的 不 同 表 示 是 很 有 
用 的 。 下 一 章 我 们 将 会 介绍 Pipeline 类 ， 它 允许 我 们 在 这 些 复杂 的 算法 链 上 使 用 网 格 搜 索 
与 交叉 验证 。 













































































注 12: 我 们 强烈 推荐 阅读 Foster Provost 和 Tom Fawcett 的 Data Science for Business (O’Reilly) 一 书 来 了 解 关 
于 这 一 主题 的 更 多 信息 。 
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第 6 章 


算法 链 与 管道 





对 于 许多 机 器 学 习 算法 ， 你 提供 的 特定 数据 表示 非常 重要 ， 正 如 第 4 章 中 所 述 。 我 们 在 第 
3 章 中 讲 过 ， 首 先 对 数据 进行 缩放 ， 然 后 手动 合并 特征 ， 再 利用 无 监督 机 老 学 习 来 学 习 特 
征 。 因 此 ， 大 多 数 机 器 学 习 应 用 不 仅 需 要 应 用 单个 算法 ， 而 且 还 需要 将 许多 不 同 的 处 理 步 
又 和 机 器 学 习 模型 链接 在 一 起 。 本 章 将 介绍 如 何 使 用 Pipeline 类 来 简化 构建 变换 和 模型 链 
的 过 程 。 我 们 将 重点 介绍 如 何 将 Pipeline 和 Gridsearchcv 结合 起 来 ， 从 而 同时 搜索 所 有 
处 理 步骤 中 的 参数 。 


举 一 个 例子 来 说 明 模 型 链 的 重要 性 。 我 们 知道 ， 可 以 通过 使 用 MinMaxscaler 进行 预 处 理 来 
大 大 提高 核 SVM 在 cancer 数据 集 上 的 性 能 。 下 面 这 些 代码 实现 了 划分 数据 、 计 算 最 小 值 
和 最 大 值 、 缩 放 数据 与 训练 SVM 


In[1]: 
from skLearn.svm import SVC 
from sklearn.datasets import Load_breast_cancer 
from skLearn.modeL_seLection import train test_split 
from sklearn.preprocessing import MinMaxScaler 














# 加 载 并 划分 数据 

cancer = load_ breast cancer() 

X_train, X_test, y_train, y_test = train test_ split( 
cancer .data, cancer.target, random_state=0) 


# 计算 训练 数据 的 最 小 值 和 最 大 值 

scaler = MinMaxScaler().fit(X_train) 
In[2]: 

# 对 训练 数据 进行 缩放 


X_train_scaled = scaler.transform(X_train) 
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svm = SVC() 

# 在 缩放 后 的 训练 数据 上 学 习 SVMN 

svm.fit(X_train_scaled, y_train) 

# 对 测试 数据 进行 缩放 ， 并 计算 缩放 后 的 数据 的 分 数 

X_test_scaled = scaler.transform(X_test) 

print("Test score: {:.2f}".format(svm.score(X_test_scaled, y_test))) 





Out[2]: 
Test score: 0.95 


6.1 用 预 处 理 进 行 参数 选择 


现在 ,假设 我 们 希望 利用 GridsearchCv 找到 更 好 的 SvC 参数 ， 正 如 第 5 章 中 所 做 的 那样 。 
我 们 应 该 怎么 做 ? 一 种 简单 的 方法 可 能 如 下 所 示 : 


In[3]: 
from sklearn.model_selection import GridSearchCV 
# 只 是 为 了 便于 说 明 ， 不 要 在 实践 中 使 用 这 些 代码 | 
param _ grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100], 
'gamma': [0.001, 0.01, 0.1, 1, 10, 100]} 
grid = GridSearchCV(SVC(), param_grid=param_grid, cv=5) 
grid.fit(X_train_scaled, y_train) 
print("Best cross-validation accuracy: {:.2f}".format(grid.best_score_ )) 
print("Best set score: {:.2f}".format(grid.score(X_ test_ scaled, y_test))) 
print("Best parameters: ", grid.best params_) 




















Out[3]: 
Best cross-validation accuracy: 0.98 
Best set score: 0.97 
Best parameters: {'gamma': 1, 'C': 1} 


这 里 我 们 利用 缩放 后 的 数据 对 SVC 参数 进行 网 格 搜索 。 但 是 ， 上 面 的 代码 中 有 一 个 不 易 察 
觉 的 陷阱 。 在 缩放 数据 时 ， 我 们 使 用 了 训练 集中 的 所 有 数据 来 找到 训练 的 方法 。 然 后 ， 我 
们 使 用 缩放 后 的 训练 数据 来 运行 带 交 叉 验 证 的 网 格 搜索 。 对 于 交叉 验证 中 的 每 次 划分 ， 原 
台 训练 集 的 一 部 分 被 划分 为 训练 部 分 ， 另 一 部 分 被 划分 为 测试 部 分 。 测 试 部 分 用 于 度量 在 
训练 部 分 上 所 训练 的 模型 在 新 数据 上 的 表现 。 但 是 ， 我 们 在 缩放 数据 时 已 经 使 用 过 测试 部 
分 中 所 包含 的 信息 。 请 记 住 ， 交 又 验证 每 次 划分 的 测试 部 分 都 是 训练 集 的 一 部 分 ， 我 们 使 
用 整个 训练 集 的 信息 来 找到 数据 的 正确 缩放 。 

对 于 模型 来 说 ， 这 些 数据 与 新 数据 看 起 来 截然 不 同 。 如 果 我 们 观察 新 数据 〈 比 如 测试 集中 
的 数据 )， 那 么 这 些 数据 并 没有 用 于 对 训练 数据 进行 缩放 ， 甚 最 大 值 和 最 小 值 也 可 能 与 训 
练 数据 不 同 。 下 面 这 个 例子 (图 6-1) 显示 了 交叉 验证 与 最 终 评估 这 两 个 过 程 中 数据 处 理 
的 不 同 之 处 : 


In[4]: 
mglearn.plots.plot_improper_processing() 
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图 6-1: 在 交叉 验证 循环 之 外 进行 预 处 理 时 的 数据 使 用 情 ) 


因此 ， 对 于 建 模 过 程 ， 交 又 验证 中 的 划分 无 法 正确 地 反映 新 数据 的 特征 。 我 们 已 经 将 这 部 
分 数据 的 信息 泄露 (leak) 给 建 模 过 程 。 这 将 导致 在 交 又 验证 过 程 中 得 到 过 于 乐观 的 结果 ， 
并 可 能 会 导致 选择 次 优 的 参数 。 

为 了 解决 这 个 问题 ， 在 交叉 验证 的 过 程 中 ， 应 该 在 进行 任何 预 处 理 之 前 完成 数据 集 的 划 
分 。 任 何 从 数据 集中 提取 信息 的 处 理 过 程 都 应 该 仅 应 用 于 数据 集 的 训练 部 分 ， 因 此 ， 任 何 
交叉 验证 都 应 该 位 于 处 理 过 程 的 “最 外 层 循环 ”。 


在 scikit-Learn 中 ， 要 想 使 用 cross_val_score 国 数 和 GridSearchCy 国 数 实现 这 一 点 ， 可 
以 使 用 Pipeline 类 。Pipeline 类 可 以 将 多 个 处 理 步 又 合并 (glue) 为 单个 sctkit-Learn 估 
计 器 。Pipeline 类 本 身上 有 具有 fit、predict 和 score 方法， 其 行为 与 scikit-learn 中 的 其 
他 模型 相同 。Pipeline 类 最 常见 的 用 例 是 将 预 处 理 步 又 (比如 数据 缩放 ) 与 一 个 监督 模型 
(比如 分 类 器 ) 链接 在 一 起 。 


6.2 构建 管道 


我 们 来 看 一 下 如 何 使 用 Pipeline 类 来 表示 在 使 用 MinMaxscaler 缩放 数据 之 后 再 训练 一 个 
SVM 的 工作 流程 (暂时 不 用 网 格 搜 索 )。 首 先 ， 我们 构建 一 个 由 步骤 列表 组 成 的 管道 对 象 。 
每 个 步骤 都 是 一 个 元 组 ， 其 中 包含 一 个 名 称 (你 选 定 的 任意 字符 串 ') 和 一 个 估计 器 的 实例 : 
































注 1: 只 有 一 个 例外 ， 就 是 该 名 称 不 能 包含 双 下 划 线 __ 
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In[5]: 

from sklearn.pipeline import Pipeline 

pipe = Pipeline([("scaler", MinMaxScaler()), ("svm", SVC())]) 
这 里 我 们 创建 了 两 个 步骤 : 第 一 个 叫 作 "scater"， 是 MinMaxScaler 的 实例 ， 第 二 个 叫 作 
"svm"， 是 SVC 的 实例 。 现在 我 们 可 以 像 任何 其 他 scikit-learn 估计 器 一 样 来 拟 合 这 个 管道 : 


In[6]: 

pipe.fit(X_train, y_train) 
这 里 ptpe.fit 首先 对 第 一 个 步骤 (缩放 器 ) 调用 fit， 然 后 使 用 该 缩放 器 对 训练 数据 进 
行 变换 ， 最 后 用 缩放 后 的 数据 来 拟 合 SVM。 和 评估， 我 们 只 需 调 用 


pipe.score: 




















In[7]: 
print("Test score: {:.2f}".format(pipe.score(X_ test, y_test))) 


Out[7]: 
Test score: 0.95 


如 果 对 管道 调用 score 方 法， 则 首先 使 用 缩放 器 ed ， 然 后 利用 缩放 后 
的 测试 数据 对 SVM 调用 score 方法 。 如 你 所 见 ， 这 个 结 果 与 我 们 从 本 章 开头 的 代码 得 到 
的 结果 (手动 进行 数据 变换 ) 是 相同 的 。 人 我 们 减少 了 “ 预 处 理 + 分 类 ”过 程 
所 需要 的 代码 量 。 但 是 ， 使 用 管道 的 主要 优点 在 于 ， 现 在 我 们 可 以 在 cross_vaL_score 或 
GridSsearchcyv 中 使 用 这 个 估计 器 


6.3 在 网 格 搜索 中 使 用 管道 


在 网 格 搜索 中 使 用 管道 的 工作 原理 与 使 用 任何 其 他 估计 器 都 相同 。 我 们 定义 一 个 需要 搜索 
的 参数 网 格 ， 并 利用 管道 和 参数 网 格 构建 一 个 G6ridsearchCV。 不 过 在 指定 参数 网 格 时 存在 
一 处 细微 的 变化 。 我 们 需要 为 每 个 参数 指定 它 在 管道 中 所 属 的 步 又。 我 们 要 调节 的 两 个 参 
数 C 和 gamma 都 是 SVC 的 参数 ， 属 于 第 二 个 步骤 。 我 们 给 这 个 步骤 的 名 称 是 "svm" 。 为 管 
道 定义 参数 网 格 的 语法 是 为 每 个 参数 指定 步骤 名 称 ， 后 面 加 上 _ ( 双 下 划 线 )， 然 后 是 参 
数 名 称 。 因 此 ， 要 想 搜索 SVC 的 5 参数 ， 必 须 使 用 "svm__c" 作为 参数 网 格 字典 的 键 ， 对 
gamma 参数 也 是 同 理 : 


In[8] : 
param_grid = {'svm_C': [0.001, 0.01, 0.1, 1, 10, 100], 
'svm__gamma': [0.001, 0.01, 0.1, 1, 10, 100]} 


有 了 这 个 参数 网 格 ， 我 们 可 以 像 平常 一 样 使 用 GridsearchCV: 


In[9] : 
grid = GridSearchCV(pipe, param_grid=param_grid, cv=5) 
grid.fit(X_train, y_train) 
print("Best cross-validation accuracy: {:.2f}".format(grid.best_score_ )) 
print("Test set score: {:.2f}".format(grid.score(X_ test, y_test))) 
print("Best parameters: {}".format(grid.best_params_)) 
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Out[9] : 

Best cross-validation accuracy: 0.98 

Test set score: 0.97 

Best parameters: {'svm_(C': 1, 'svm_ gamma': 1} 
与 前 面 所 做 的 网 格 搜索 不 同 ， 现 在 对 于 交叉 验证 的 每 次 划分 来 说 ， 仅 使 用 训练 部 分 对 
MinMaxScaler 进行 拟 合 ， 测 试 部 分 的 信息 没有 泄露 到 参数 搜索 中 。 将 图 6-2 与 图 6-1 进行 
对 比 。 
In[10] : 

mglearn.plots.plot_proper_processing() 
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图 6-2: 使 用 管道 在 交叉 验证 循环 内 部 进行 预 处 理 时 的 数据 使 用 情 ) 


在 交叉 验证 中 ,信息 泄 露 的 影响 大 小 取决 于 预 处 理 步 又 的 性 质 。 使 用 测试 部 分 来 估计 数据 
的 范围 ， 通 常 不 会 产生 可 怕 的 影响 ， 但 在 特征 提取 和 特征 选择 中 使 用 测试 部 分 ， 则 会 导致 
结果 的 显著 差异 。 









































举例 说 明 信 息 泄露 
在 Hastie、Tibshirani 与 Friedman 合 著 的 《统计 学 习 基 础 》 一 书 中 给 出 了 交叉 验证 中 信 
息 泄 露 的 一 个 很 好 的 例子 ， 这 里 我 们 复制 了 一 个 修改 版 本 。 我 们 考虑 一 个 假想 的 回归 
任务 ， 包 含 从 高 斯 分 布 中 独立 采样 的 100 个 样本 与 10 000 个 特征 。 我 们 还 从 高 斯 分 布 
中 对 响应 进行 采样 : 


In[11]: 
rnd = np.random.RandomState(seed=0) 
X = rnd.normal(size=(100, 10000)) 
y = rnd.normal(size=(100,)) 














考虑 到 我 们 创建 数据 集 的 方式 ， 数 据 X 与 目标 y 之 间 没 有 任何 关系 (它们 是 独立 的 ) ， 
所 以 应 该 不 可 能 从 这 个 数据 集中 学 到 任何 内 容 。 现 在 我 们 将 完成 下 列 工作 。 首 先 利 用 
SelectPercentile 特征 选择 从 10 000 个 特征 中 选择 信息 量 最 大 的 特征 ， 然 后 使 用 交 又 
验证 对 Ridge 回归 进行 评估 : 


In[12] : 
from sklearn.feature_selection import SelectPercentile, f_regression 
select = SelectPpercentile(score_func=f_regression, percentile=5).fit(X, y) 
X_selected = select.transform(X) 
print("X_selected.shape: {}".format(X_selected. shape)) 

Out[12] : 
X_seLected.shape: (100, 500) 


In[13]: 
from sklearn.model_ selection import cross_val_score 
from sklearn.linear_model import Ridge 
print("Cross-validation acCuracy (cv only on ridge): {:.2f}".format( 
np.mean(cross_val_score(Ridge(), X_selected, y, cv=5)))) 


Out[13] : 
Cross-validation accuracy (cv only on ridge): 0.91 


交叉 验证 计算 得 到 的 平均 R 为 0.91， 表 示 这 是 一 个 非常 好 的 模型 。 这 显然 是 不 对 的 ， 
因为 我 们 的 数据 是 完全 随机 的 。 这 里 的 特征 选择 从 10 000 个 随机 特征 中 (碰巧 ) 选 出 
了 与 目标 相关 性 非常 好 的 一 些 特 征 。 由 于 我 们 在 交叉 验证 之 外 对 特征 选择 进行 拟 合 ， 
所 以 它 能 够 找到 在 训练 部 分 和 测试 部 分 都 相关 的 特征 。 从 测试 部 分 泄露 出 去 的 信息 包 
人 钨 的 信息 量 非常 大 ， 寻 致 得 到 非常 不 切实 际 的 结果 。 我 们 将 这 个 结果 与 正确 的 交叉 验 
证 (使 用 管道 ) 进行 对 比 : 
In[14]: 

pipe = Pipeline([("select", SelectPpercentile(score func=f_regression, 

percentile=5)), 
("ridge", Ridge())]) 
print("Cross-validation accuracy (pipeline): {:.2f}".format( 
np.mean(cross_val_score(pipe, X, y, cv=5)))) 
Out[14] : 
Cross-validation accuracy (pipeline): -0.25 


这 一 次 我 们 得 到 了 负 的 R? 分 数 ， 表 示 模 型 很 差 。 利 用 管道 ， 特 征 选 择 现在 位 于 交 又 验 
证 循环 内 部 。 也 就 是 说 ， 仅 使 用 数据 的 训练 部 分 来 选择 特征 ， 而 不 使 用 测试 部 分 。 特 
征 选择 找到 的 特征 在 训练 集中 与 目标 相关 ， 但 由 于 数据 是 完全 随机 的 ， 这 些 特 征 在 测 
试 集中 并 不 与 目标 相关 。 在 这 个 例子 中 ,修正 特征 选择 中 的 数据 洪 露 问题 ， 结 论 也 由 
“模型 表现 很 好 ” 变 为 “模型 根本 没有 效果 ”。 
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6.4 通用 的 管道 接口 


Pipeline 类 不 但 可 用 于 预 处 理 和 分 类 ， 实 际 上 还 可 以 将 任意 数量 的 估计 器 连接 在 一 起 。 例 
如 ， 你 可 以 构建 一 个 包含 特征 提取 、 特 征 选 择 、 缩 放 和 分 类 的 管道 ， 总 共有 4 个 步骤 。 同 
样 ， 最 后 一 步 可 以 用 回归 或 聚 类 代替 分 类 。 


对 于 管道 中 估计 器 的 唯一 要 求 就 是 ， 除 了 最 后 一 步 之 外 的 所 有 步骤 都 需要 具有 transform 
方法 ， 这 样 它们 可 以 生成 新 的 数据 表示 ， 以 供 下 一 个 步骤 使 用 。 


在 调用 Pipeline.fit 的 过 程 中 ， 管 道内 部 依次 对 每 个 步骤 调用 fit 和 transform ， 其 输入 
是 前 一 个 步骤 中 transforn 方法 的 输出 。 对 于 管道 中 的 最 后 一 步 ， 则 仅 调 用 fit。 


忽略 某 些 细 枝 末节 ， 其 实现 方法 如 下 所 示 。 请 记 住 ，ptipeLine.steps 是 由 元 组 组 成 的 列表 ， 
所 以 pipeline.steps[0][1] 是 第 一 个 估计 器 ，pipeLine.steps[1][1] 是 第 二 个 估计 器 ， 以 
此 类 推 : 


In[15]: 
def fit(self, X, y): 
X_transformed = X 
for name, estimator in seLf.steps[:-1]: 
# 遍历 除 最 后 一 步 之 外 的 所 有 步 又 
# 对 数据 进行 拟 合 和 变换 
X_transformed = estimator.fit transform(X_transformed, y) 
# 对 最 后 一 步 进 行 拟 合 
seLf .steps[-1][1].fit(X_transformed，y) 
return self 


使 用 Pipeline 进行 预测 时 ， 我 们 同样 利用 除 最 后 一 步 之 外 的 所 有 步骤 对 数据 进行 变换 
(transformn) ， 然 后 对 最 后 一 步调 用 predict: 


In[16] : 
def predict(seLf，X) : 
X_transformed = X 
for step in seLf.steps[:-1]: 
# 遍历 除 最 后 一 步 乙 外 的 所 有 步骤 
# 对 数据 进行 变换 
X_transformed = step[1].transform(X_transformed) 
# 利用 最 后 一 步 进 行 预测 
return self.steps[-1][1].predict(X_transformed) 


整个 过 程 如 图 6-3 所 示 ， 其 中 包含 两 个 变换 器 (transformer) T1 和 T2， 还 有 一 个 分 类 器 
( 叫 作 Classifier)。 
























































注 2: 或 仅 调 用 fit_transform。 
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pipe = make_pipeline(T1(), T2(), Classifier()) 


pipe.fit(X, y) 


T1.fit(X, y) 区 到 
X 11 
T1.transform(X T2.fit(X1, y) 
Xx1 


T2.transfrom(X1) Classifier.fit(X2, y) 
一 ，X7 Classifier 


pipe.predict(X’) 





T1.transform(X’) 3 T2.transform(X’1) 9 Classifier.predict(X’2) 3 
一 一 一 
X X 1 X 2 








6-3: 管道 的 训练 和 预测 过 程 概述 


管道 实际 上 比 上 图 更 加 通用 。 管 道 的 最 后 一 步 不 需要 具有 predict 函数 ， 比 如 说 ， 我 们 可 
以 创建 一 个 只 包含 一 个 缩放 器 和 一 个 PCA 的 管道 。 由 于 最 后 一 步 (PCA) 具有 transform 方 
法 ， 所 以 我 们 可 以 对 管道 调用 transform， 以 得 到 将 PCA.transform 应 用 于 前 一 个 步骤 处 理 
过 的 数据 后 得 到 的 输出 。 管 道 的 最 后 一 步 只 需要 具有 fit 方法 。 


6.4.1 用 make_pipeline 方 便 地 创建 管道 


利用 上 述 语法 创建 管道 有 时 有 点 麻烦 ， 我 们 通常 不 需要 为 每 一 个 步骤 提供 用 户 指定 的 名 
称 。 有 一 个 很 方便 的 函数 make_pipeLine， 可 以 为 我 们 创建 管道 并 根据 每 个 步骤 所 属 的 类 
为 其 自动 命名 。make_pipeline 的 语法 如 下 所 示 : 


In[17]: 

from sklearn.pipeline import make_pipeline 

# 标准 语法 

pipe_long = Pipeline([("scaler", MinMaxScaler()), ("svm", SVC(C=100))]) 

# 缩写 语法 

pipe_short = make_pipeline(MinMaxScaler(), SVC(C=100)) 
管道 对 象 pipe_long 和 pipe_short 的 作用 完全 相同 ， 但 ptpe_short 的 步骤 是 自动 命名 的 。 
我 们 可 以 通过 查看 steps 属性 来 查看 步骤 的 名 称 : 


In[18] : 
print("Pipeline steps:\n{}".format(pipe_short.steps)) 






























































Out[18] : 
Pipeline steps: 
[('minmaxscaler', MinMaxScaler(copy=True, feature_range=(0, 1))), 
('svc', SVC(C=100, cache_size=200, class_weight=None, coef0=0.0, 
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decision_function_shape=None，degree=3，gamma='auto' ， 
kernel='rbf', max_iter=-1, probability=False, 
random_state=None, shrinking=True, tol=0.001, 
verbose=False))] 


这 两 个 步骤 被 命名 为 minmaxscaler 和 svc。 一 般 来 说 ， 步 又 名 称 只 是 类 名 称 的 小 写 版 本 。 
如 果 多 个 步骤 属于 同一 个 类 ， 则 会 附加 一 个 数字 : 
In[19] : 


from sklearn.preprocessing import StandardScaler 
from sklearn.decomposition import PCA 








pipe = make_pipeline(StandardScaler(), PCA(n_components=2), StandardScaler()) 
print("Pipeline steps:\n{}".format(pipe.steps)) 


Out[19] : 
pipeline steps : 
[('"standardscaLer-1' ，StandardScaLer(Copy=True，with_mean=True，with_std=True) ) ， 
('pca' ，PCA(copy=True，iterated_power=4，n_components=2，random_state=None， 
svd_solver='auto', tol=0.0, whiten=False)), 
('standardscaler-2', StandardScaler(copy=True, with_mean=True, with_std=True))] 


如 你 所 见 ， 第 一 个 StandardScaler 步骤 被 命名 为 standardscaler-1， 而 第 二 个 被 命名 为 
standardscaler-2。 但 在 这 种 情况 下 ， 使 用 具有 明确 名 称 的 Pipeline 构建 可 能 更 好 ， 以 便 
为 每 个 步骤 提供 更 具 语义 的 名 称 。 


6.4.2 ”访问 步骤 属性 

通常 来 说 ， 你 希望 检查 管道 中 某 一 步骤 的 属性 一 一 比如 线性 模型 的 系数 或 PCA 提取 的 成 
分 。 要 想 访 问 管道 中 的 步骤 ， 最 简单 的 方法 是 通过 named_steps 属性 ， 它 是 一 个 字典 ， 将 
步骤 名 称 映射 为 估计 器 : 


In[20] : 
# 用 前 面 定义 的 管道 对 cancer 数 据 集 进行 拟 合 
pipe.fit(cancer .data) 
# 从 "pca" 步 又 中 提取 前 两 个 主 成 分 
components = pipe.named_steps["pca"].components_ 
print("components.shape: {}".format(components.shape)) 























Out[20] : 
Components .shape: (2，30) 


6.4.3 ”访问 网 格 搜索 管道 中 的 属性 


本 章 前 面 说 过 ， 使 用 管道 的 主要 原因 之 一 就 是 进行 网 格 搜索 。 一 个 常见 的 任务 是 在 网 格 搜 
索 内 访问 管道 的 某 些 步 又。 我 们 对 cancer 数据 集 上 的 LogisticRegression 分 类 器 进行 网 
格 搜索 ， 在 将 数据 传人 LogisticRegression 分 类 器 之 前 ， 先 用 Pipeline 和 StandardScaler 
对 数据 进行 缩放 。 首 先 ， 我 们 用 make_pipeline 函数 创建 一 个 管道 : 





In[21] : 
from sklearn.linear_model import LogisticRegression 


pipe = make_pipeline(StandardScaler(), LogisticRegression()) 


接 下 来 ， 我 们 创建 一 个 参数 网 格 。 我 们 在 第 2 章 中 说 过 ，LogisticRegression 需要 调节 的 
正则 化 参数 是 参数 Cc。 我 们 对 这 个 参数 使 用 对 数 网 格 ， 在 0.01 和 100 之 间 进 行 搜 索 。 由 于 
我 们 使 用 了 make_pipeline 国 数 ， 所 以 管道 中 LogisticRegression 步骤 的 名 称 是 小 写 的 类 
名 称 Logisticregresstion。 因 此 ， 为 了 调节 参数 C， 我 们 必须 指定 Logisticregression_( 
的 参数 网 格 : 


In[22]: 
param_grid = {'logisticregression C': [0.01, 0.1, 1, 10, 100]} 


像 往常 一 样 ， 我 们 将 cancer 数据 集 划 分 为 训练 集 和 测试 集 ， 并 对 网 格 搜索 进行 拟 合 : 


In[23]: 
Xx_train, X_test, y_train, y_test = train test_split( 
cancer .data, cancer.target, random_state=4) 
grid = GridSearchCV(pipe, param_grid, cv=5) 
grid.fit(X_train, y_train) 























那么 我 们 如 何 访问 GridsearchCV 找到 的 最 佳 LogisticRegression 模型 的 系数 呢 ? 我 们 从 第 
5 章 中 知道 ，GridSearchcy 找到 的 最 佳 模型 (在 所 有 训练 数据 上 训练 得 到 的 模型 ) 保存 在 
grid.best_estimator_ 中 : 


ES 





In[24]: 
print("Best estimator:\n{}".format(grid.best estimator_)) 


Out[24] : 

Best estimator: 

pipeline(steps=[ 
('standardscaler', StandardScaler(copy=True, with_mean=True, with_std=True)), 
('logisticregression', LogisticRegression(C=0.1, class_weight=None, 
dual=False, fit intercept=True, intercept_scaling=1, max_iter=100, 
multi_class='ovr', Nn_jobs=1, penalty='l2', random_state=None, 
solver='liblinear', tol=0.0001, verbose=0, warm_start=False))]) 


在 我 们 的 例子 中 ，best_estimator_ 是 一 个 管道 ， 它 包含 两 个 步骤 : standardscaler 
和 Logisticregresston。 如 前 所 述 ， 我们 可 以 使 用 管道 的 named_steps 属性 来 访问 


Logisticregression 步骤 : 








In[25] : 
print("Logistic regression step:\n{}".format( 
grid.best_estimator_.named_steps["logisticregression"])) 


Out[25] : 

Logistic regression step: 

LogisticRegression(C=0.1, class weight=None, dual=False, fit intercept=True, 
intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1, 
penalty='12', random_state=None, solver='liblinear', tol=0.0001, 
verbose=0, warm_start=False) 
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现在 我 们 得 到 了 训练 过 的 LogisticRegression 实例 ， 下 面 我 们 可 以 访问 与 每 个 输入 特征 相 
关 的 系数 (权重) : 
In[26] : 


print("Logistic regression coefficients:\n{}".format( 
grid.best estimator_.named_steps["logisticregression"].coef_)) 














Out[26] : 
Logistic regression coefficients : 
[[-0.389 -0.375 -0.376 -0.396 -0.115 0.017 -0.355 -0.39 -0.058 0.209 
-0.495 -0.004 -0.371 -0.383 -0.045 0.198 0.004 -0.049 0.21 0.224 
-0.547 -0.525 -0.499 -0.515 -0.393 -0.123 -0.388 -0.417 -0.325 -0.139]] 


这 个 系数 列表 可 能 有 点 长 ， 但 它 通 常 有 助 于 理解 你 的 模型 。 


6.5 “网 格 搜索 预 处 理 步骤 与 模型 参数 


我 们 可 以 利用 管道 将 机 器 学 习 工 作 流程 中 的 所 有 处 理 步 又 封装 成 一 个 scikit-learn 估计 
器 。 这 么 做 的 另 一 个 好 处 在 于 ， 现 在 我 们 可 以 使 用 监督 任务 (比如 回归 或 分 类 ) 的 输出 来 
调节 预 处 理 参 数 。 在 前 儿 音 里， 我 们 在 应 用 岭 回 归 之 前 使 用 了 boston 数据 集 的 多 项 式 特 
征 。 下 面 我 们 用 一 个 管道 来 重复 这 个 建 模 过 程 。 管 道 包含 3 个 步骤 : 缩放 数据 、 计 算 多 项 
式 特征 与 岭 回 归 : 
In[27]: 

from sklearn.datasets import load_boston 

boston = load_boston() 


X_train, X_test, y_train, y_test = train test_split(boston.data, boston.target, 
random_state=0) 












































from sklearn.preprocessing import PolynomialFeatures 
pipe = make_pipeLine( 
StandardScaler(), 
PolynomialFeatures(), 
Ridge()) 
我 们 怎么 知道 选择 几 次 多 项 式 ， 或 者 是 否 选 择 多 项 式 或 交互 项 呢 ? 理 想 情 况 下 ， 我 们 希望 
根据 分 类 结果 来 选择 degree 参数 。 我 们 可 以 利用 管道 搜索 degree 参数 以 及 Ridge 的 alpha 
参数 。 为 了 做 到 这 一 点 ， 我 们 要 定义 一 个 包含 这 两 个 参数 的 param_grid， 并 用 步骤 名 称 作 
为 前 级 : 
In[28]: 


param_grid = {'polynomialfeatures__degree': [1, 2, 3], 
'ridge_ alpha': [0.001, 0.01, 0.1, 1, 10, 100]} 


现在 我 们 可 以 再 次 运行 网 格 搜索 : 


In[29]: 
grid = GridSearchCV(pipe, param_grid=param_grid, cv=5, Nn_jobs=-1) 
grid.fit(X_train, y_train) 


像 第 5 章 中 所 做 的 那样 ， 我 们 可 以 用 热 图 将 交叉 验证 的 结果 可 视 化 ( 见 图 6-4) : 
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In[30] : 
plt.matshow(grid.cv_results_['mean_test_score'].reshape(3, -1), 
vmin=0, cmap="viridis") 
plt.xlabel("ridge alpha") 
plt.ylabel("polynomialfeatures__degree") 
plt.xticks(range(len(param_grid['ridge alpha'])), param_ grid['ridge alpha']) 
plt.yticks(range(len(param_grid['polynomialfeatures__degree'])), 
param_grid['polynomialfeatures__degree']) 
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图 6-4: 以 多 项 式 特征 的 次 数 和 怜 回 归 的 aLpha 参数 为 坐标 轴 ， 绘 制 交 叉 验 证 平均 分 数 的 热 图 




















从 交叉 验证 的 结果 中 可 以 看 出 ， 使 用 二 次 多 项 式 很 有 用 ， 但 三 次 多 项 式 的 效果 比 一 次 或 二 
次 都 要 差 很 多 。 从 找到 的 最 佳 参数 中 也 可 以 看 出 这 一 点 : 


In[31] : 
print("Best parameters: {}".format(grid.best_params_)) 


Out[31] : 
Best parameters: {'polynomialfeatures__degree': 2, 'ridge alpha': 10} 


这 个 最 佳 参数 对 应 的 分 数 如 下 : 


In[32]: 
print("Test-set score: {:.2f}".format(grid.score(X_ test, y_test))) 





Out[32] : 
Test-set Score: 0.77 


为 了 对 比 ， 我 们 运行 一 个 没有 多 项 式 特征 的 网 格 搜索 : 


In[33] : 
param_grid = {'ridge alpha': [0.001, 0.01, 0.1, 1, 10, 100]} 
pipe = make_pipeline(StandardScaler(), Ridge()) 
grid = GridSearchCV(pipe, param_grid, cv=5) 
grid.fit(X_train, y_train) 
print("Score without poly features: {:.2f}".format(grid.score(X_test, y_test))) 
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Out[33] : 
Score without poly features: 0.63 


正 与 我 们 观察 图 6-4 中 的 网 格 搜索 结果 所 预料 的 那样 ， 不 使 用 多 项 式 特征 得 到 了 明显 更 差 
的 结果 。 


同时 搜索 预 处 理 参 数 与 模型 参数 是 一 个 非常 强大 的 策略 。 但 是 要 记 住 ，GridsearchCV 会 党 
试 指定 参数 的 所 有 可 能 组 合 。 因 此 ， 向 网 格 中 添加 更 多 参数 ， 需 要 构建 的 模型 数量 将 呈 指 
数 增长 。 


6.6 ”网 格 搜索 选择 使 用 哪个 模型 


你 其 至 可 以 进一步 将 GridsearchCV 和 Pipeline 结合 起 来 : 还 可 以 搜索 管道 中 正在 执行 的 
实际 步骤 (比如 用 Standardscater 还 是 用 MinMaxscaler)。 这 样 会 导致 更 大 的 搜索 空间 ， 
应 该 予以 仔细 考虑 。 尝 试 所 有 可 能 的 解决 方案 ， 通常 并 不 是 一 种 可 行 的 机 器 学 习 策 略 。 但 
下 面 是 一 个 例子 : 在 iris 数据 集 上 比较 RandomForestClassifier 和 SVC。 我 们 知道 ，SVC 
可 能 需要 对 数据 进行 缩放 ， 所 以 我 们 还 需要 搜索 是 使 用 Standardscaler 还 是 不 使 用 预 处 
理 。 我 们 知道 ，RandomForestClassifier 不 需要 预 处 理 。 我 们 先 定义 管道 。 这 里 我 们 显 式 
地 对 步骤 命名 。 我 们 需要 两 个 步 又， 一 个 用 于 预 处 理 ， 然 后 是 一 个 分 类 器 。 我 们 可 以 用 
SVC 和 StandardScaler 来 将 其 实例 化 : 


In[34] : 
pipe = Pipeline([('preprocessing', StandardScaler()), ('classifier', SVC())]) 

































































现在 我 们 可 以 定义 需要 搜索 的 parameter_grid。 我 们 希望 classifier 是 RandomForestClassifier 
或 SVC。 由 于 这 两 种 分 类 器 需要 调节 不 同 的 参数 ， 并 且 需 要 不 同 的 预 处 理 ， 所 以 我 们 可 以 
使 用 5.2.3 市 “在 非 网 格 的 空间 中 搜索 ”中 所 讲 的 搜索 网 格 列表 。 为 了 将 一 个 估计 器 分 配 
给 一 个 步骤 ， 我 们 使 用 步骤 名 称 作为 参数 名 称 。 如 果 我 们 想 跳 过 管道 中 的 某 个 步骤 〈 例 
如 ，RandomForest 不 需要 预 处 理 ) ， 则 可 以 将 该 步 又 设置 为 None: 


In[35] : 
from sklearn.ensemble import RandomForestClassifier 
























































param_grid = [ 

{'classifier': [SVC()], 'preprocessing': [StandardScaler(), None], 
'classifier_ gamma': [0.001, 0.01, 0.1, 1, 10, 100], 
'classifier C': [0.001, 0.01, 0.1, 1, 10, 100]}, 

{'classifier': [RandomForestClassifier(n_estimators=100)], 
'preprocessing': [None], 'classifier max_features': [1, 2, 3]}] 


现在 ， 我 们 可 以 像 前 面 一 样 将 网 格 搜索 实例 化 并 在 cancer 数据 集 上 运行 : 


In[36] : 
X_train, X_test, y_train, y_test = train_test_spLit( 
cancer .data, cancer.target, random_state=0) 








grid = GridSearchCV(pipe, param_grid, cv=5) 
grid.fit(X_train, y_train) 





print("Best params:Nn{f}N\n" .format(grid.best_params_)) 


print("Best cross-validation score: {:.2f}".format(grid.best_score_)) 
print("Test-set score: {:.2f}".format(grid.score(X_test，y_test))) 


Out[36] : 
Best params : 
{'classifier': 
SVC(C=10, cache_size=200, class_weight=None, coef0=0.0, 


decision_function_shape=None, degree=3, gamma=0.01, kernel='rbf', 
max_iter=-1, probability=False, random_state=None, shrinking=True, 


tol=0.001, verbose=False), 
"preprocessing ' : 
StandardScaler(copy=True, with_mean=True, with_std=True), 
'classifier_C': 10, 'classifier_ gamma': 0.01} 


Best cross-validation score: 0.99 
Test-set score: 0.98 




















网 格 搜 索 的 结果 是 SVC 与 Standardscaler 预 处 理 ， 在 C=10 和 gamma=0.01 时 给 出 最 佳 结果 。 











6.7 小结 与 展望 


本 章 介 绍 了 Pipeline 类 ， 这 是 一 种 通用 工具 ， 可 以 将 机 器 学 习 工 作 流程 中 的 多 个 处 理 步 
又 链接 在 一 起 。 现 实 世界 中 的 机 器 学 习 应 用 很 少 仅 涉 及 模型 的 单独 使 用 ， 而 是 需要 一 系列 
处 理 步 又 。 使 用 管道 可 以 将 多 个 步骤 封装 为 单个 Python 对 象 ， 这 个 对 象 具 有 我 们 熟悉 的 
scikit-Learn 接口 fit、predict 和 transform。 特 别 是 使 用 交叉 验证 进行 模型 评估 与 使 用 
网 格 搜索 进行 参数 选择 时 ， 使 用 Pipeline 类 来 包括 所 有 处 理 步 又 对 正确 的 评估 至 关 重要 。 
利用 Pipeline 类 还 可 以 让 代码 更 加 简洁 ， 并 减少 不 用 pipeline 类 构建 处 理 链 时 可 能 会 犯 


























的 错误 〈 比 如 忘记 将 所 有 变换 器 应 用 于 测试 集 ， 或 者 应 用 顺序 错误 ) 的 可 能 性 。 选 择 特征 
































提取 、 预 处 理 和 模型 的 正确 组 合 ， 这 在 某 种 程度 上 是 一 门 艺术 ， 通 常 需要 一 些 试 错 。 但 是 
有 了 管道 ， 这 种 “尝试 ”多 个 不 同 的 处 理 步 又 是 非常 简单 的 。 在 进行 试验 时 ， 要 小 心 不 要 
将 处 理 过 程 复 杂 化 ， 并 且 一 定 要 评估 一 下 模型 中 的 每 个 组 件 是 否 必要 。 











学 完 本 章 ， 我 们 已 经 学 完了 scikit-learn 提供 的 所 有 通用 工具 与 算法 。 现 在 你 已 经 掌握 了 
所 有 必要 的 技术 ， 并 了 解 了 在 实践 中 应 用 机 器 学 习 的 必要 机 制 。 下 一 章 我 们 将 深入 一 种 在 








实践 中 常见 的 数据 类 型 一 一 文本 数据 ， 它 需要 具备 一 些 专 门 的 知识 





能 正确 处 理 。 
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第 7 章 


处 理 文本 数据 





在 第 4 章 中 ， 我 们 讨论 过 表示 数据 属性 的 两 种 类 型 的 特征 : 连续 特征 与 分 类 特征 ， 前 者 用 
于 描述 数量 ， 后 者 是 固定 列表 中 的 元 素 。 在 许多 应 用 中 还 可 以 见 到 第 三 种 类 型 的 特征 : 文 
本 。 举 个 例子 ， 如 果 我 们 想 要 判断 一 封 电子 邮件 是 合法 邮件 还 是 垃圾 邮件 ， 那 么 邮件 内 容 
一 定 会 包含 对 这 个 分 类 任务 非常 重要 的 信息 。 或 者 ， 我 们 可 能 想 要 了 解 一 位 政治 家 对 移民 
问题 的 看 法 。 这 个 人 的 演讲 或 推 文 可 能 会 提供 有 用 的 信息 。 在 客户 服务 中 ， 我 们 通常 想 知 
道 一 条 消息 是 投诉 还 是 咨询 。 我 们 可 以 利用 消息 的 主题 和 内 容 来 自动 判断 客户 的 目的 ， 从 
而 将 消息 发 送 给 相关 部 门 ， 甚 至 可 以 发 送 一 封 全 自动 回复 。 

文本 数据 通常 被 表示 为 由 字符 组 成 的 字符 串 。 在 上 面 给 出 的 所 有 例子 中 ， 文 本 数据 的 长 度 
都 不 相同 。 这 个 特征 显然 与 前 面 讨 论 过 的 数值 特征 有 很 大 不 同 ， 我 们 需要 先 处 理 数 据 ， 然 
后 才能 对 其 应 用 机 器 学 习 算法 。 


Fy DA mm Ma ba 
7.1 用 字符 串 表 示 的 数据 类 型 
在 深入 研究 表示 机 器 学 习 文 本 数据 的 处 理 步骤 之 前 ， 我 们 希望 简要 讨论 你 可 能 会 遇 到 的 不 
同类 型 的 文本 数据 。 文 本 通常 只 是 数据 集中 的 字符 串 ， 但 并 非 所 有 的 字符 串 特 征 都 应 该 被 
当 作 文本 来 处 理 。 我 们 在 第 5 章 讨 论 过 ， 字 符 串 特征 有 时 可 以 表示 分 类 变量 。 在 查看 数据 
之 前 ， 我 们 无 法 知道 如 何 处 理 一 个 字符 串 特 征 。 
你 可 能 会 遇 到 四 种 类 型 的 字符 串 数据 ; 
。 分 类 数据 
。 可 以 在 语义 上 映射 为 类 别 的 自由 字符 串 
。 结构 化 字符 串 数 据 
。 文本 数据 
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分 类 数据 (categorical data) 是 来 自 国定 列表 的 数据 。 比 如 你 通过 调查 人 们 最 喜欢 的 颜色 
来 收集 数据 ， 你 向 他 们 提供 了 一 个 下 拉 菜 单 ， 可 以 从 “红色 “绿色 ”“ 蓝 色 ”“ 黄 色 ”“ 黑 
色 ”“ 白 色 ”“ 紫 色 ” 和 “粉色 ”中 选择 。 这 样 会 得 到 一 个 包含 8 个 不 同 取 值 的 数据 集 ， 
这 8 个 不 同 取 值 表示 的 显然 是 分 类 变量 。 你 可 以 通过 观察 来 判断 你 的 数据 是 不 是 分 类 数 
据 〈 如 果 你 看 到 了 许多 不 同 的 字符 串 ， 那 么 不 太 可 能 是 分 类 变量 ) ， 并 通过 计算 数据 集中 
的 唯一 值 并 绘制 其 出 现 次 数 的 直方 图 来 验证 你 的 判断 。 你 可 能 还 希望 检查 每 个 变量 是 否 实 
际 对 应 于 一 个 在 应 用 中 有 意义 的 分 类 。 调 查 过 程 进行 到 一 半 ， 有 人 可 能 发 现 调查 问卷 中 将 
“black”( 黑 色 ) 错 拼 为 “blak”， 并 随后 对 其 进行 了 修改 。 因 此 ， 你 的 数据 集中 同时 包含 
“black” 和 “blak”， 它 们 对 应 于 相同 的 语义 ， 所 以 应 该 将 二 者 合并 。 

现在 想象 一 下 ， 你 向 用 户 提供 的 不 是 一 个 下 拉 菜 单 ， 而 是 一 个 文本 框 ， 让 他 们 填写 自己 最 
喜欢 的 颜色 。 许 多 人 的 回答 可 能 是 像 “ 黑 色 ” 或 “ 蓝 色 ”之 类 的 颜色 名 称 。 其 他 人 可 能 会 
出 现 笔 误 ， 使 用 不 同 的 单词 拼写 (比如 “gray” 和 “grey”')， 或 使 用 更 加 形象 的 具体 名 称 
(比如 “午夜 蓝 色 ”)。 你 还 会 得 到 一 些 非常 奇怪 的 条 目 。xkcd 颜色 调查 (https://blog.xkcd. 
com/2010/05/03/color-survey-results/) 中 有 一 些 很 好 的 例子 ， 其 中 有 人 为 颜色 命名 ， 给 出 
了 如 “迅猛 龙 泄殖腔 ”和 “我 牙医 办 公 室 的 检 色 。 我 仍然 记得 他 的 头皮 届 慢 慢 地 漂 落 到 我 
张 开 的 下 巴 ” 之 类 的 名 称 ， 很 难 将 这 些 名 称 与 颜色 自动 对 应 (或 者 根本 就 无 法 对 应 )。 从 
文本 框 中 得 到 的 回答 属于 上 述 列 表 中 的 第 二 类 ， 可 以 在 语义 上 映射 为 类 别 的 自由 字符 串 
(free strings that can be semantically mapped to categories) 。 可 能 最 好 将 这 种 数据 编码 为 分 类 
变量 ， 你 可 以 利用 最 常见 的 条 目 来 选择 类 别 ， 也 可 以 自 定 义 类 别 ， 使 用 户 回答 对 应 用 有 意 
义 。 这 样 你 可 能 会 有 一 些 标准 颜色 的 类 别 ， 可 能 还 有 一 个 “多 色 ” 类 别 〈 对 于 像 “绿色 与 
红色 条 纹 ” 之 类 的 回答 ) 和 “其 他 ”类 别 〈 对 于 无 法 归 类 的 回答 )。 这 种 字符 串 预 处 理 过 
程 可 能 需要 大 量 的 人 力 ， 并 且 不 容易 自动 化 。 如 果 你 能 够 改变 数据 的 收集 方式 ， 那 么 我 们 
强烈 建议 ， 对 于 分 类 变量 能 够 更 好 表示 的 概念 ， 不 要 使 用 手动 输入 值 。 


通常 来 说 ， 手 动 输入 值 不 与 固定 的 类 别 对 应 ， 但 仍 有 一 些 内 在 的 结构 (structure)， 比 如 地 
址 、 人 名 或 地 名 、 日 期 、 电 话 号 码 或 其 他 标识 符 。 这 种 类 型 的 字符 串通 常 难以 解析 ， 其 处 
理 方 法 也 强烈 依赖 于 上 下 文 和 具体 领域 。 对 这 种 情况 的 系统 处 理 方法 超出 了 本 书 的 范围 。 


最 后 一 类 字符 串 数据 是 自由 格式 的 文本 数据 (text data) ， 由 短语 或 句子 组 成 。 例 子 包 括 
推 文 、 聊 天 记录 和 酒店 评论 ， 还 包括 莎士比亚 文集 、 维 基 百 科 的 内 容 或 古 腾 堡 计划 收集 
的 50 000 本 电子 书 。 所 有 这 些 集合 包含 的 信息 大 多 是 由 单词 组 成 的 句子 。 为 了 简单 起 
见 ， 我 们 假设 所 有 的 文档 都 只 使 用 一 种 语言 ， 英语 。’ 在 文本 分 析 的 语 境 中 ， 数 据 集 通 
常 被 称 为 语料库 (corpus)， 每 个 由 单个 文本 表示 的 数据 点 被 称 为 文档 (document)。 这 
些 术 语 来 自 于 信息 检索 (information retrieval，IR) 和 自然 语言 处 理 (natural language 
processing，NLP) 的 社区 ， 它 们 主要 针对 文本 数据 。 



























































































































































注 1: 两 个 词 的 意思 都 是 “灰色 ”。 一 一 译 者 注 

注 2: 推 文中 链接 网 站 的 内 容 所 包含 的 信息 可 能 比 推 文本 身 还 要 多 。 
注 3: 本 章 接 下 来 的 绝 大 部 分 内 容 也 适用 于 其 他 使 用 罗马 字母 的 语言 ， 部 分 适用 于 具有 单词 定 界 符 的 其 他 语 
言 。 例 如 ， 中 文 没有 词 边界 ， 还 有 其 他 方面 的 挑战 ， 所 以 难以 应 用 本 章 介绍 的 技术 。 
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7.2 示例 应 用 : 电影 评论 的 情感 分 析 


作为 本 章 的 一 个 运行 示例 ， 我 们 将 使 用 由 斯 坦 福 研 究 员 Andrew Maas 收集 的 IMDb 
(Internet Movie 让 互联 网 电影 数据 库 ) 网 站 的 电影 评论 数据 集 。“ 这 个 数据 集 包 
含 评论 文本 ， 还 有 一 个 标签 ， 用 于 表示 该 评论 是 “正面 的 ”(positive) 还 是 “负面 的 ” 
(negative)。IMDb 网 站 本 身 包含 从 1 到 10 的 打分 。 为 了 简化 建 模 ， 这 些 评论 打分 被 归纳 
为 一 个 二 分 类 数据 集 ， 评 分 大 于 等 于 7 的 评论 被 标记 为 “正面 的 "， 评 分 小 于 等 于 4 的 评 
论 被 标记 为 “负面 的 "， 中 性 评论 没有 包含 在 数据 集中 。 我 们 不 讨论 这 种 方法 是 否 是 一 种 
好 的 数据 表示 ， 而 只 是 使 用 Andrew Maas 提供 的 数据 。 

将 数据 解压 之 后 ， 数 据 集 包括 两 个 独立 文件 夹 中 的 文本 文件 ， 一 个 是 训练 数据 ， 一 个 是 测 
试 数据 。 每 个 文件 夹 又 都 有 两 个 子 文件 夹 ， 一 个 叫 作 pos， 一 个 叫 作 neg: > 


In[2]: 
!tree -L 2 data/acLImdb 

























































































Out[2] : 
data/acLImdb 


一 一 test 
| | 一 一 neg 


pos 








+ 
| 
[eV 
a. 
己 


neg 
pos 
6 directories, 0 files 


pos 文件 夹 包含 所 有 正面 的 评论 ， 每 条 评论 都 是 一 个 单独 的 文本 文件 ，neg 文件 夹 。 
似 。scikit-learn 中 有 一 个 辅助 函数 可 以 加 载 用 这 种 文件 夹 结构 保存 的 文件 ， 其 中 每 
文件 夹 对 应 于 一 个 标签 ， 这 个 国 数 叫 作 Load_fites。 我 们 首先 将 load_files 函数 应 | 
练 数 据 : 


In[3]: 
from sklearn.datasets import load files 











reviews_train = load_files("data/aclImdb/train/") 

# Lload_files 返 回 一 个 Bunch 对 象 ， 其 中 包含 训练 文本 和 训练 标签 
text_train, y_train = reviews_train.data, reviews_train.target 
print("type of text_ train: {}".format(type(text_ train))) 
print("Length of text train: {}".format(len(text_train))) 
print("text_train[1]:\n{}".format(text_train[1])) 











Out[3] : 
type of text train: <class 'list'> 
Length of text_train: 25000 
text_train[1]: 
b'Words can\'t describe how bad this movie is. I can\'t explain it by writing 





注 4: 你 可 以 在 http://ai.stanford.edu/~amaas/data/sentiment/ 下 载 这 个 数据 集 。 
注 5: v1.0 版 数据 的 目录 结构 与 这 个 略 有 不 同 。 译 者 广 


























only. You have too see it for yourself to get at grip of how horrible a movie 
really can be. Not that I recommend you to do that. There are so many 
clich\xc3\xa9s, mistakes (and all other negative things you can imagine) here 
that will just make you cry. To start with the technical first, there are a 
LOT of mistakes regarding the airplane. I won\'t list them here, but just 
mention the coloring of the plane. They didn\'t even manage to show an 
airliner in the colors of a fictional airline, but instead used a 747 
painted ;in the original Boeing livery. Very bad. The plot is stupid and has 
been done many times before, only much, much better. There are so many 
ridiculous moments here that i lost count of it really early. Also, I was on 
the bad guys\' side all the time in the movie, because the good guys were so 
stupid. "Executive Decision" should without a doubt be you\'re choice over 
this one, even the "Turbulence"-movies are better. In fact, every other 
movie in the world is better than this one.' 


你 可 以 看 到 ,， text_train 是 一 个 长 度 为 25 000 的 列表 ", 其 中 每 个 元 素 是 包含 一 条 评论 的 字 
符 串 。 我 们 打印 出 索引 编号 为 1 的 评论 。 你 还 可 以 看 到 ， 评 论 中 包含 一 些 HTML 换行 符 
(<br />)。 虽 然 这 些 符 号 不 太 可 能 对 机 器 学 习 模型 产生 很 大 影响 ， 但 最 好 在 继续 下 一 步 之 
前 清洗 数据 并 删除 这 种 格式 : 
In[4] : 

text_train = [doc.replace(b"<br />", b" ") for doc in text_train] 


text_train 的 元 素 类 型 与 你 所 使 用 的 Python 版 本 有 关 。 在 Python 3 中 ， 它 们 是 bytes 类 
型 ， 是 表示 字符 串 数 据 的 二 进 制 编码 。 在 Python 2 中 ，text_train 包含 的 是 字符 串 。 这 里 
不 会 深入 讲解 Python 中 不 同 的 字符 串 类 型 ， 但 我 们 推荐 阅读 Python 2 (https://docs.python. 
org/2/howto/unicode.html) 和 Python 3 (https://docs.python.org/3/howto/unicode.html) 的 文 
档 中 关于 字符 串 和 Unicode 的 内 容 。 


收集 数据 集 时 保持 正 类 和 反 类 的 平衡 ， 这 样 所 有 正面 字符 串 和 人 负面 字符 串 的 数量 相等 : 


In[5]: 
print("Samples per class (training): {}".format(np.bincount(y_train))) 


6 








不 用 















































Out[5] : 
Samples per class (training): [12500 12500] 


我 们 用 同样 的 方式 加 载 测 试 数据 集 : 


In[6]: 
reviews_test = load files("data/aclImdb/test/") 
text_test, y_test = reviews_ test.data, reviews_ test.target 
print("Number of documents in test data: {}".format(len(text_ test))) 
print("Samples per class (test): {}".format(np.bincount(y_test))) 
text_test = [doc.replace(b"<br />", b" ") for doc in text_test] 





Out[6] : 
Number of documents in test data: 25000 
Samples per class (test): [12500 12500] 














注 6: 对 于 v1.0 版 数据 ， 其 训练 集 大 小 是 75 000， 而 不 是 25 000， 因 为 其 中 还 包含 50 000 个 用 于 无 监督 学 习 
的 无 标签 文档 。 在 进行 后 续 操作 之 前 ， 建 议 先 将 这 50 000 个 无 标签 文档 从 训练 集中 剔除 。 一 一 译 者 注 
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我 们 要 解决 的 任务 如 下 : 给 定 一 条 记 





F 论 ， 我 们 希望 根据 该 评论 的 文本 内 容 对 其 分 配 一 个 


“正面 的 ”或 “负面 的 ”标签 。 这 是 一 项 标准 的 二 分 类 任务 。 但 是 ， 文 本 数据 并 不 是 机 器 


学 习 模型 可 以 处 理 的 格式 。 我 们 需要 将 文本 的 字符 串 表 示 转 换 为 数值 表示 ， 从 而 可 以 对 其 








应 用 机 器 学 习 算法 。 


7.3 将 文本 数据 表示 为 词 袋 


用 于 机 器 学 习 的 文本 表示 有 一 种 最 简单 的 方法 ， 也 是 最 有 效 且 最 常 月 














的 方法 ， 就 是 使 用 词 


袋 (bag-of-words) 表示 。 使 用 这 种 表示 方式 时 ， 我 们 舍弃 了 输入 文本 中 的 大 部 分 结构 ， 如 
草 节 、 段 落 、 句 子 和 格式 ， 只 计算 语料库 中 每 个 单词 在 每 个 文本 中 的 出 现 频次 。 侈 弃 结构 
并 仅 计 算 单 词 出 现 次 数 ， 这 会 让 脑海 中 出 现 将 文本 表示 为 “ 袋 ”的 画面 。 
对 于 文档 语料库 ， 计 算 词 袋 表 示 包 括 以 下 三 个 步骤 。 


(1) 分 词 (tokenization)。 将 每 个 文档 划分 为 出 现 帮 





























按 空格 和 标点 划分 。 
(2) 构建 词 表 (vocabulary building)。 收 集 一 个 词 表 ， 里 面包 含 出 现在 任意 文档 中 的 所 有 词 ， 
并 对 它们 进行 编号 (比如 按 字母 顺序 排序 )。 
(3) 编码 (encoding)。 对 于 每 个 文档 ， 计 算 词 表 中 每 个 单词 在 该 文档 中 的 出 现 频次 。 


在 步骤 1 和 步骤 2 中 涉及 一 些 细微 之 处 ， 我 们 将 在 本 章 后 面 进一步 深入 讨论 。 目 前 ， 我 们 


来 看 一 下 如 何 利用 scikit-learn 来 应 用 词 袋 处 理 过 程 。 图 7-1 展示 了 对 字符 
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E 其 中 的 单词 [ 称 为 词 例 (token) ]， 比 如 





B "This is 


how you get ants." 的 处 理 过 程 。 其 输出 是 包含 每 个 文档 中 单词 计数 的 一 个 向 量 。 对 于 词 
表 中 的 每 个 单词 ， 我 们 都 有 它 在 每 个 文档 中 的 出 现 次 数 。 也 就 是 说 ， 整 个 数据 集中 的 每 个 


唯一 单词 都 对 应 于 这 种 数值 表示 的 一 个 特征 。 请 注意 ， 原 始 字符 























征 表示 完全 无 关 。 


中 的 单词 顺序 与 词 袋 特 








“This is how you get ants.” 








[‘this’, ‘is’, ‘how’, ‘you’, “ 





对 所 有 文档 构建 一 个 词 表 
[‘“aardvark’, ‘amsterdam’, ‘ants’, ... ‘you’, ‘your’, ‘zyxst’] 


稀 玻 矩阵 编码 


aardvark ants get you zyxst 


[OO 人 








图 7-1: 


词 袋 处 理 过 程 
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7.3.1 将 词 袋 应 用 于 玩具 数据 集 


词 袋 表示 是 在 CountVectorizer 中 实现 的 ， 它 是 一 个 变换 器 (transformer)。 我 们 首先 将 它 
应 用 于 一 个 包含 两 个 样本 的 玩具 数据 集 ， 来 看 一 下 它 的 工作 原理 : 
In[7]: 


bards_words =["The fool doth think he is wise,", 
"but the wise man knows himself to be a fool"] 


我 们 导入 CountVectorizer 并 将 其 实例 化 ， 然 后 对 玩具 数据 进行 拟 合 ， 如 下 所 示 : 


In[8]: 
from sklearn.feature_extraction.text import CountVectorizer 
vect = CountVectorizer() 
vect.fit(bards_words) 


拟 合 CountVectorizer 包括 训练 数据 的 分 词 与 词 表 的 构建 ， 我 们 可 以 通过 vocabulary_ 属性 
来 访问 词 表 : 
In[9]: 


print("Vocabulary size: {}".format(len(vect.vocabulary_))) 
print("Vocabulary content:\n {}".format(vect.vocabulary_)) 
































Out[9] : 
Vocabulary size: 13 
Vocabulary content: 
{'the': 9, 'himself': 5, 'wise': 12, 'he': 4, 'doth': 2, 'to': 11, 'knows': 7， 
'man': 8, 'fool': 3, 'is': 6, 'be': 0, 'think': 10, 'but': 1} 


词 表 共 包 含 13 个 词 ， 从 "be" 到 "wise"。 
我 们 可 以 调用 transforn 方法 来 创建 训练 数据 的 词 袋 表示 : 


In[10] : 
bag_of_ words = vect.transform(bards_words) 
print("bag_of_words: {}".format(repr(bag_of_words))) 


Out[10] : 
bag_of_words: <2x13 sparse matrix of type "<CLass 'numpy.int64'>" 
with 16 stored elements in Compressed Sparse Row format> 


词 袋 表示 保存 在 一 个 SciPy 稀疏 和 矩阵 中 ， 这 种 数据 格式 只 保存 非 零 元 素 (参见 第 1 章 )。 这 
个 矩阵 的 形状 为 2 x 13， 每 行 对 应 于 两 个 数据 点 之 一 ， 每 个 特征 对 应 于 词 表 中 的 一 个 单词 。 
这 里 使 用 稀 玻 和 矩阵， 是 因为 大 多 数 文档 都 只 包含 词 表 中 的 一 小 部 分 单词 ， 也 就 是 说 ， 特 征 
数组 中 的 大 部 分 元 素 都 为 0。 想 想 看 ， 与 所 有 英语 单词 (这 是 词 表 的 建 模 对 象 ) 相 比 ， 一 
篇 电影 评论 中 可 能 出 现 多 少 个 不 同 的 单词 。 保 存 所 有 0 的 代价 很 高 ， 也 浪费 内 存 。 要 想 查 
看 稀疏 矩阵 的 实际 内 容 ， 可 以 使 用 toarray 方法 将 其 转换 为 “密集 的 ”NumPy 数组 (保存 
所 有 0 元 素 ) :” 






























































注 7; 这 么 做 之 所 以 是 可 行 的 ， 是 因为 我 们 使 用 的 是 仅 包含 13 个 单词 的 小 型 玩具 数据 集 。 对 于 任何 真实 数 
据 集 来 说 ， 这 将 会 导致 MemoryError (内 存 错 误 )。 
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In[11] : 
print("Dense representation of bag_of_ words:\n{}".format( 
bag_of words.toarray())) 


Out[11] : 
Dense representation of bag_of_words: 
[[060111061001101] 
[1106101011101 1]] 


我 们 可 以 看 到 ， 每 个 单词 的 计数 都 是 0 或 1。bards_words 中 的 两 个 字符 串 都 没有 包含 相同 
的 单词 。 我 们 来 看 一 下 如 何 阅 读 这 些 特 征 向 量 。 第 一 个 字符 串 ("The fool doth think he 
is wise,") 被 表示 为 第 一 行 ， 对 于 词 表 中 的 第 一 个 单词 "be" ， 出 现 0 次 。 对 于 词 表 中 的 第 
二 个 单词 "but"， 出 现 0 次 。 对 于 词 表 中 的 第 三 个 单词 "doth"， 出 现 1 次， 以 此 类 推 。 通 
过 观察 这 两 行 可 以 看 出 ， 第 4 个 单词 "fool"、 第 10 个 单词 "the" 与 第 13 个 单词 "wise" 同 
时 出 现在 两 个 字符 串 中 。 


7.3.2 ”将 词 袋 应 用 于 电影 评论 

上 一 节 我 们 详细 介绍 了 词 袋 处 理 过 程 ， 下 面 我 们 将 其 应 用 于 电影 评论 情感 分 析 的 任务 。 
前 面 我 们 将 IMDb 评论 的 训练 数据 和 测试 数据 加 载 为 字符 串 列 表 (text_train 和 text_ 
test) ， 现 在 我 们 将 处 理 它们 ; 


In[12] : 
vect = CountVectorizer().fit(text_train) 
X_train = vect.transform(text_train) 
print("X_train:\n{}".format(repr(X_train))) 







































































Out[12]: 
X_train: 
<25000x74849 sparse matrix of type '<class 'numpy.int64'>' 
with 3431196 stored elements in Compressed Sparse Row format> 


Xx_train 是 训练 数据 的 词 袋 表示 ， 其 形状 为 25 000 x 74 849， 这 表示 词 表 中 包含 74 849 个 
元 素 。 数 据 同 样 被 保存 为 SciPy 稀 玻 和 矩阵。 我 们 来 更 详细 地 看 一 下 这 个 词 表 。 访 问 词 表 的 

另 一 种 方法 是 使 用 向 量 器 (vectorizer) 的 get_feature_name 方法 ， 它 将 返回 一 个 列表 ， 每 
个 元 素 对 应 于 一 个 


In[13] : 
feature_names = vect.get feature names() 
print("Number of features: {}".format(len(feature_names))) 
print("First 20 features:\n{}".format(feature_names[:20])) 
print("Features 20010 to 20030:\n{}".format(feature_names[20010:20030])) 
print("Every 2000th feature:\n{}".format(feature_names[::2000])) 











Out[13]: 
Number of features: 74849 
First 20 features: 
['00', '000', '0000000000001'，'00001'，'00015'，'000s'，'001'，'003830'， 
'006', '007', '0079', '0080', '0083', '0093638', '00am', 'Q00pm', 'Q00s', 





大 
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'01' ，'01pm' ，'02'] 

Features 20010 to 20030 : 

['dratted', 'draub', 'draught', 'draughts', 'draughtswoman', 'draw', 'drawback', 
'drawbacks', 'drawer', 'drawers', 'drawing', 'drawings', 'drawl', 
'drawled', 'drawling', 'drawn', 'draws', 'draza', 'dre', 'drea'] 

Every 2000th feature: 

['00', 'aesir', 'aquarian', 'barking', 'blustering', 'beéte', 'chicanery', 
'condensing', 'cunning', 'detox', 'draper', 'enshrined', 'favorit', 'freezer', 
'goldman', 'hasan', 'huitieme', 'intelligible', 'kantrowitz', 'lawful', 
'maars', 'megalunged', 'mostey', 'norrland', 'padilla', 'pincher', 
'promisingly', 'receptionist', 'rivals', 'schnaas', 'shunning', 'sparse', 
'subset', 'temptations', 'treatises', 'unproven', 'walkman', 'xylophonist'] 


如 你 所 见 ， 词 表 的 前 10 个 元 素 都 是 数字 ， 这 可 能 有 些 出 人 意料 。 所 有 这 些 数字 都 出 现在 
评论 中 的 某 处 ， 因 此 被 提取 为 单词 。 大 部 分 数字 都 没有 一 目 了 然 的 语义 ， 除 了 "907"， 在 
电影 的 特定 语 境 中 它 可 能 指 的 是 往 姆 斯 邦 德 (James Bond) 这 个 角色 。 ”从 无 意义 的 “ 单 
词 ”中 挑 出 有 意义 的 有 时 很 困难 。 进 一 步 观察 这 个 词 表 ， 我 们 发 现 许多 以 “dra” 开 头 的 英 
语 单词 。 你 可 能 注意 到 了 ， 对 于 "draught"、"drawback" 和 "drawer"， 其 单数 和 复数 形式 
都 包含 在 词 表 中 ， 并 且 作 为 不 同 的 单词 。 这 些 单词 具有 密切 相关 的 语义 ， 将 它们 作为 不 同 
的 单词 进行 计数 〈 对 应 于 不 同 的 特征 ) 可 能 不 大 合适 。 

在 尝试 改进 特征 提取 之 前 ， 我 们 先 通过 实际 构建 一 个 分 类 器 来 得 到 性 能 的 量化 度量 。 我 们 
将 训练 标签 保存 在 y_train 中 ， 训 练 数据 的 词 袋 表示 保存 在 Xx_train 中 ， 因 此 我 们 可 以 在 
这 个 数据 上 训练 一 个 分 类 器 。 对 于 这 样 的 高 维 稀 玻 数据 ， 类 似 LogisticRegression 的 线性 
模型 通常 效果 最 好 。 

我 们 首先 使 用 交叉 验证 对 LogisticRegression 进行 评估 : ” 


In[14] : 
from skLearn.modeL_seLection import cross_val_score 
from sklearn.linear_model import LogisticRegression 
scores = cross_val_score(LogisticRegression(), X_train, y_train, cv=5) 
print("Mean cross-validation accuracy: {:.2f}".format(np.mean(scores))) 
























































Out[14] : 
Mean cross-validation accuracy: 0.88 


我 们 得 到 的 交叉 验证 平均 分 数 是 88% ， 这 对 于 平衡 的 二 分 类 任务 来 说 是 一 个 合理 的 性 能 。 
我 们 知道 ，LogisticRegression 有 一 个 正则 化 参数 5， 我 们 可 以 通过 交叉 验证 来 调节 它 : 


In[15] : 
from sklearn.model_selection import GridSearchCV 
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10]} 
grid = GridSearchCV(LogisticRegression(), param_ grid, cv=5) 
grid.fit(X_train, y_train) 














注 8: 对 数据 的 快速 分 析 可 以 证 实 这 一 点 。 你 可 以 自己 尝试 验证 一 下 。 
注 9: 细心 的 读者 可 能 会 注意 到 ， 我 们 这 里 违背 了 第 6 章 中 关于 交叉 验证 与 预 处 理 的 内 容 。Countvectorizer 














上 月 
的 默认 设置 实际 上 不 会 收集 任何 统计 信息 ， 所 以 我 们 的 结果 是 有 效 的 。 对 于 应 用 而 言 ， 从 一 开始 就 使 
用 Pipeline 是 更 好 的 选择 ， 但 我 们 后 面 再 这 人 么 做 ， 这 里 是 为 了 便于 说 明 。 
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print("Best cross-validation score: {:.2f}".format(grid.best_score_)) 
print("Best parameters: "，grid.best_params_) 


Out[15]: 
Best cross-validation score: 0.89 
Best parameters: {'C': 0.1} 


我 们 使 用 C=6.1 得 到 的 交叉 验证 分 数 是 89%。 现 在 ， 我 们 可 以 在 测试 集 上 评估 这 个 参数 设 
置 的 泛 化 性 能 : 
In[16] : 


X_test = vect.transform(text_test) 
print("{:.2f}".format(grid.score(X_test, y_test))) 


Out[16] : 
0.88 


下 面 我 们 来 看 一 下 能 否 改 进 单词 提取 。CountVectorizer 使 用 正则 表达 式 提 取 词 例 。 默 认 
使 用 的 正则 表达 式 是 "\b\w\w+\b"。 如 果 你 不 熟悉 正则 表达 式 ， 它 的 含义 是 找到 所 有 包含 
至 少 两 个 字母 或 数字 (\w) 且 被 词 边界 (\b) 分 隔 的 字符 序列 。 它 不 会 匹配 只 有 一 个 字母 
的 单词 ， 还 会 将 类 似 “doesnt” 或 “bitly” 之 类 的 缩写 分 开 ， 但 它 会 将 “hgter” 匹 配 为 
一 个 单词 。 然 后 ，CountVectorizer 将 所 有 单词 转换 为 小 写字 母 ， 这 样 “soon”“Soon” 和 
“sOon” 都 对 应 于 同一 个 词 例 (因此 也 对 应 于 同一 个 特征 )。 这 一 简单 机 制 在 实践 中 的 效 
很 好 ， 但 正如 前 面 所 见 ， 我 们 得 到 了 许多 不 包含 信息 量 的 特征 (比如 数字 )。 减 少 这 种 特 
征 的 一 种 方法 是 ， 仅 使 用 至 少 在 2 个 文档 (或 者 至 少 5 个 ， 等 等 ) 中 出 现 过 的 词 例 。 仅 在 
一 个 文档 中 出 现 的 词 例 不 太 可 能 出 现在 测试 集中 ， 因 此 没什么 用 。 我 们 可 以 用 min_df 参数 
来 设置 词 例 至 少 需要 在 多 少 个 文档 中 出 现 过 : 


In[17] : 
vect = CountVectorizer(min df=5).fit(text_ train) 
X_train = vect.transform(text_train) 
print("X_train with min_df: {}".format(repr(X_train))) 


























酒 























Out[17] : 
X_train with min_df: <25000x27271 sparse matrix of type '<class 'numpy.int64'>" 
with 3354014 stored eLements in Compressed Sparse Row format> 


通过 要 求 每 个 词 例 至 少 在 5 个 文档 中 出 现 过 ， 我 们 可 以 将 特征 数量 减少 到 27 271 个 ， 正 如 
上 面 的 输出 所 示 一 一 只 有 原始 特征 的 三 分 之 一 左右 。 我 们 再 来 查看 一 些 词 例 : 


In[18]: 
feature_names = vect.get feature names() 




















print("First 50 features:\n{}".format(feature_names[:50])) 
print("Features 20010 to 20030:\n{}".format(feature_names[20010:20030])) 
print("Every 700th feature:\n{}".format(feature_names[::700])) 


Out[18] : 
First 50 features: 
['00', '000', '007', '00s', '01', '02', '03', '04', '05', '06', '07', '08', 
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'09', '10', '100', '1000', '100th', '101', '102', '103', '104', '105', '107', 
108 "10585", “10th' ys. "11, 110" 于 116 117 “1th “12"., "120"., 
"12th", "13”, "135"; “13th", "14", "140", "14th", '15", "150", "15th", "16"; 
'160', '1600', '16mm', '16s', '16th'] 

Features 20010 to 20030: 

['repentance', 'repercussions', 'repertoire', 'repetition', 'repetitions', 
'repetitious', 'repetitive', 'rephrase', 'replace', 'replaced', 'replacement', 
'replaces', 'replacing', 'replay', 'replayable', 'replayed', 'replaying', 
'replays', 'replete', 'replica'] 

Every 700th feature: 

['00', 'affections', 'appropriately', 'barbra', 'blurbs', 'butchered', 
'cheese', 'commitment', 'courts', 'deconstructed', 'disgraceful', 'dvds', 
'eschews', 'fell', 'freezer', 'goriest', 'hauser', 'hungary', 'insinuate', 
'juggle', 'leering', 'maelstrom', 'messiah', 'music', 'occasional', 'parking', 
'pleasantville', 'pronunciation', 'recipient', 'reviews', 'sas', 'shea', 
'sneers', 'steiger', 'swastika', 'thrusting', 'tvs', 'vampyre', 'westerns'] 


数字 的 个 数 明 显 变 少 了 ， 有 些 生 个 词 或 拼写 错误 似乎 也 都 消失 了 。 我 们 再 次 运行 网 格 搜索 
来 看 一 下 模型 的 性 能 如 何 : 
In[19]: 
grid = GridSsearchCV(LogisticRegression(), param_grid, cv=5) 
grid.fit(X_train, y_train) 
print("Best cross-validation score: {:.2f}".format(grid.best_score_ )) 
Out[19] : 
Best cross-validation score: 0.89 


网 格 搜索 的 最 佳 验证 精度 还 是 89%， 这 和 前 面 一 样 。 我 们 并 疫 有 改进 模型 ， 但 减少 要 处 到 
的 特征 数量 可 以 加 速 处 理 过 程 ， 舍 弃 无 用 的 特征 也 可 能 提高 模型 的 可 解释 性 。 


如 果 一 个 文档 中 包含 训练 数据 中 没有 包含 的 单词 ,并 对 其 调用 CountVectorizer 
的 transform 方 法 ， 那 么 这 些 单词 将 被 忽略 ， 因 为 它们 没有 包含 在 字典 中 。 
这 对 分 类 来 说 不 是 一 个 问题 ， 因 为 从 不 在 训练 数据 中 的 单词 中 学 不 到 任何 内 
容 。 但 对 于 某 些 应 用 而 言 〈 比 如 垃圾 邮件 检测 ) ， 添 加 一 个 特征 来 表示 特定 文 
档 中 有 多 少 个 所 谓 “ 词 表 外 ”单词 可 能 会 有 所 帮助 。 为 了 实现 这 一 点 ， 你 需 
要 设置 min_df， 否 则 这 个 特征 在 训练 期 间 永远 不 会 被 用 到 。 
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7.4 停 用 词 


删除 没有 信息 量 的 单词 还 有 另 一 种 方法 ， 就 是 舍弃 那些 出 现 次 数 太 多 以 至 于 没有 信息 量 的 单 
词 。 有 两 种 主要 方法 : 使 用 特定 语言 的 停 用 词 (stopword) 列表 ， 或 者 舍弃 那些 出 现 过 于 频 
繁 的 单词 。scikit-learn 的 feature_extraction.text 模块 中 提供 了 英语 停 用 词 的 内 置 列表 : 
In[20]: 

from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS 


print("Number of stop words: {}".format(len(ENGLISH_STOP_WORDS))) 
print("Every 10th stopword:\n{}".format(list(ENGLISH_STOP_WORDS)[::10])) 
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Out[20] : 

Number of stop words: 318 

Every 10th stopword: 

['above', 'elsewhere', 'into', 'well', 'rather', 'fifteen', 'had', 'enough', 
'herein', 'should', 'third', 'although', 'more', 'this', 'none', 'seemed', 
'nobody', 'seems', 'he', 'also', 'fill', 'anyone', 'anything', 'me', 'the', 
'yet', 'go', 'seeming', 'front', 'beforehand', 'forty', 'i'] 


显然 ， 删 除 上 述 列表 中 的 停 用 词 只 能 使 特征 数量 减少 318 个 ( 即 上 述 列表 的 长 度 )， 但 可 
能 会 提高 性 能 。 我 们 来 试 一 下 : 
In[21] : 

# 指定 stop_words="english" 将 使 用 内 置 列表 。 

# 我 们 也 可 以 扩展 这 个 列表 并 传人 我 们 自己 的 列表 。 

vect = CountVectorizer(min_df=5, stop_words="english").fit(text_train) 


X_train = vect.transform(text_train) 
print("X_train with stop words:\n{}".format(repr(X_train))) 











Out[21] : 
Xx_train with stop words: 
<25000x26966 sparse matrix of type '<class 'numpy.int64'>' 
with 2149958 stored elements in Compressed Sparse Row format> 


现在 数据 集中 的 特征 数量 减少 了 305 个 (27271-26966) ， 说 明 大 部 分 停 用 词 (但 不 是 所 
有 ) 都 出 现 了 。 我 们 再 次 运行 网 格 搜索 


In[22] : 
grid = GridSearchCV(LogisticRegression()，param_grid，cv=5) 
grid.fit(X_train, y_train) 
print("Best cross-validation score: {:.2f}".format(grid.best_score_ )) 





Out[22]: 
Best cross-validation score: 0.88 


使 用 停 用 词 后 的 网 格 搜索 性 能 略 有 下 降 不 至 于 担心 ， 但 鉴于 从 27 000 多 个 特征 中 删 
除 305 个 不 太 可 能 对 性 能 或 可 解释 性 造成 很 大 影响 ， 所 以 使 用 这 个 列表 似乎 是 不 值得 的 。 
固定 的 列表 主要 对 小 型 数据 集 很 有 帮助 ， 这 些 数据 集 可 能 没有 包含 足够 的 信息 ， 模 型 从 数 
据 本 身 无 法 判断 出 哪些 单词 是 停 用 词 。 作 为 练习 ， 你 可 以 尝试 另 一 种 方法 ， 即 通过 设置 
CountVectorizer 的 max_df 选项 来 舍弃 出 现 最 频繁 的 单词 ， 并 查看 它 对 特征 数量 和 性 能 
什么 影响 。 


7.5 用 tf-idf 缩 放 数 据 


另 一 种 方法 是 按照 我 们 预计 的 特征 信息 量 大 小 来 缩放 特征 ， 而 不 是 舍弃 那些 认为 不 重要 的 
特征 。 最 常见 的 一 种 做 法 就 是 使 用 词 频 - 逆向 文档 频率 (term frequency-inverse document 
frequency，tf-idf) 方法 。 这 一 方法 对 在 某 个 特定 文档 中 经 常 出 现 的 术语 给 予 很 高 的 权 
重 ,， 但 对 在 语料库 的 许多 文档 中 都 经 常 出 现 的 术语 给 予 的 权重 却 不 高 。 如 果 一 个 单词 在 
某 个 特定 文档 中 经 常 出 现 ， 但 在 许多 文档 中 却 不 常 出 现 ， 那 么 这 个 单词 很 可 能 是 对 文 
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档 内 容 的 很 好 描述 。scikit-learn 在 两 个 类 中 实现 了 tt-idf 方法 : TfidfTransformer 和 
TfidfVectorizer， 前 者 接受 CountVectorizer 生成 的 稀疏 矩阵 并 将 其 变换 ， 后 者 接受 文本 
数据 并 完成 词 袋 特 征 提 取 与 tf-idf 变换 。tf-idf 缩放 方案 有 儿 种 变 体 ， 你 可 以 在 维基 百科 
上 阅读 相关 内 容 (https://en.wikipedia.org/wiki/Tf-idf)。 单 词 w 在 文档 4 中 的 ttidf 分 数 在 
TfidfTransformer 类 和 Tfidfvectorizer 类 中 都 有 实现 ， 其 计算 公式 如 下 所 示 : " 














NT+1 
十 上 





tfidf( w,d) = tf log | 二 1 





其 中 X 是 训练 集中 的 文档 数量 ，N, 是 训练 集中 出 现 单词 w 的 文档 数量 ，tf ( 词 频 ) 是 单词 
w 在 查询 文档 d (你 想 要 变换 或 编码 的 文档 ) 中 出 现 的 次 数 。 两 个 类 在 计算 tf-idf 表示 之 后 
都 还 应 用 了 L2 范 数 。 换 句 话 说， 它们 将 每 个 文档 的 表示 缩放 到 欧 几 里 得 范 数 为 1。 利 用 这 
种 缩放 方法 ， 文 档 长 度 〈 单 词 数 量 ) 不 会 改变 向 量化 表示 。 


由 于 tidf 实际 上 利用 了 训练 数据 的 统计 学 属性 ， 所 以 我 们 将 使 用 在 第 6 章 中 介绍 过 的 管 
道 ， 以 确保 网 格 搜索 的 结果 有 效 。 这 样 会 得 到 下 列 代码 : 


In[23] : 
from skLearn.feature_extraction.text import TfidfVectorizer 
from sklearn.pipeline import make_pipeline 
pipe = make_pipeline(TfidfVectorizer(min_df=5), 
LogisticRegression()) 
param_grid = {'logisticregression C': [0.001, 0.01, 0.1, 1, 10]} 
































grid = GridSearchCV(pipe, param_grid, cv=5) 
grid.fit(text_ train, y_train) 
print("Best cross-validation score: {:.2f}".format(grid.best_score_ )) 


Out[23] : 
Best cross-validation score: 0.89 


如 你 所 见 ， 使 用 tf-idf 代 禁 仅 统 计 词 数 对 性 能 有 所 提高 。 我 们 还 可 以 查看 tf-idf 找到 的 最 重 
要 的 单词 。 请 记 住 ，tf-idf 缩放 的 目的 是 找到 能 够 区 分 文档 的 单词 ， 但 它 完 全 是 一 种 无 监督 
技术 。 因 此 ， 这 里 的 “重要 ”不 一 定 与 我 们 感 兴趣 的 “正面 评论 ”和 “负面 评论 ”标签 相 
关 。 首 先 ， 我 们 从 管道 中 提取 Tfidfvectorizer : 


In[24] : 
vectorizer = grid.best estimator_.named_steps["tfidfvectorizer"] 


# 变换 训练 数据 集 

X_train = vectorizer.transform(text_train) 

# 找到 数据 集中 每 个 特征 的 最 大 值 

max_value = X_train.max(axis=0).toarray().ravel() 
sorted_by_tfidf = max_value.argsort() 

# 获取 特征 名 称 


feature_names = np.array(Vvectorizer .get_feature_names()) 


















































print("Features with Lowest tfidf:\n{}".format( 

















和 














注 10: 这 里 给 出 这 个 公式 主要 是 为 了 完整 性 ， 你 在 使 用 tf-idf 时 无 需 记 住 它 。 
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feature_names[sorted_by_tfidf[:20]])) 


print("Features with highest tfidf: \n{}".format( 
feature_names[sorted_by_tfidf[-20:]])) 


Out[24] : 

Features with Lowest tfidf: 

['poignant' 'disagree' 'instantly' 'importantly' 'lacked' "occurred ' 
'currently' 'altogether' 'nearby' 'undoubtedly' 'directs' 'fond' 'stinker' 
'avoided' 'emphasis' 'commented' 'disappoint' 'realizing' 'downhill' 
'inane'] 

Features with highest tfidf: 

['coop' 'homer' 'dillinger' 'hackenstein' 'gadget' 'taker' 'macarthur' 
'vargas' 'jesse' 'basket' 'dominick' 'the' 'victor' 'bridget' 'victoria’ 
'khouri' 'zizek' 'rob' 'timon' 'titanic'] 


tf-idf 较 小 的 特征 要 么 是 在 许多 文档 里 都 很 常用 ， 要 么 就 是 很 少 使 用 ， 且 仅 出 现在 非常 长 
的 文档 中 。 有 趣 的 是 ， 许 多 tf-idf 较 大 的 特征 实际 上 对 应 的 是 特定 的 演出 或 电影 。 这 些 术 
语 仅 出 现在 这 些 特定 演出 或 电影 的 评论 中 ， 但 往往 在 这 些 评论 中 多 次 出 现 。 例 如 ， 对 于 
"pokemon"、"smallville" 和 "doodlebops" 是 显而易见 的 ， 但 这 里 的 "scanners" 实际 上 指 
的 也 是 电影 标题 。 这 些 单词 不 太 可 能 有 助 于 我 们 的 情感 分 类 任务 (除非 有 些 电 影 的 评价 可 
能 普遍 偏 正 面 或 偏 负 面 )， 但 肯定 包含 了 关于 评论 的 大 量具 体 信息 。 


我 们 还 可 以 找到 逆向 文档 频率 较 低 的 单词 ， 即 出 现 次 数 很 多 ， 因 此 被 认为 不 那么 重要 的 生 
词 。 训 练 集 的 逆向 文档 频率 值 被 保存 在 idf_ 属性 中 : 


In[25]: 
sorted_by_idf = np.argsort(vectorizer.idf ) 


print("Features with Lowest idf:\n{}".format( 
feature_names[sorted_by_idf[:100]])) 
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Out[25] : 

Features with Lowest idf: 

['the' 'and' 'of' 'to' 'this' 'is' 'it' 'in' 'that' but' 'for' with' 
"Was' 'as' 'on' 'movie' 'not' 'have' 'one' 'be' 'film' 'are' 'yoyu' 'all' 
'at' 'an' 'by' 'so' 'from' 'like' 'who' 'they' 'there' 'if' 'his' ‘'out' 
'just' 'about' 'he' 'or' 'has' 'what' 'some' 'good' 'can' 'more' 'when' 
'time' 'up' 'very' 'even' 'only' 'no' 'would' 'my' 'see' 'really' 'story' 
'which' 'well' 'had' 'me' 'than' 'much' 'their' 'get' 'were' 'other' 
'been' 'do' 'most' 'don' 'her' 'also' 'into' 'first' 'made' 'how' 'great' 
'because' 'will' 'people' 'make' 'way' 'could' 'we' 'bad' 'after' 'any' 


'too' 'then' 'them' 'she’' 'watch' 'think' 'acting' 'movies' 'seen' 'its' 
'him'] 


正如 所 料 ， 这 些 词 大 多 是 英语 中 的 停 用 词 ， 比 如 "the" 和 "no"。 但 有 些 单词 显然 是 电影 评 
论 特 有 的 ， 比 如 "movie"、"fitm"、"time"、"story" 等 。 有 趣 的 是 ，"good"、"great" 和 
"bad" 也 属于 频繁 出 现 的 单词 ， 因 此 根据 上 idf 度量 也 属于 “不 太 相关 ”的 单词 ， 尽 管 我 们 
可 能 认为 这 些 单词 对 情感 分 析 任务 非常 重要 。 





























7.6 ”研究 模型 系数 


最 后 ， 我 们 详细 看 一 下 Logistic 回归 模型 从 数据 中 实际 学 到 的 内 容 。 由 于 特征 数量 非常 多 
(删除 出 现 次 数 不 多 的 特征 之 后 还 有 27 271 个 ) ， 所 以 显然 我 们 不 能 同时 查看 所 有 系数 。 但 
是 ， 我 们 可 以 查看 最 大 的 系数 ， 并 查看 这 些 系数 对 应 的 单词 。 我 们 将 使 用 基于 tf-idf 特征 
训练 的 最 后 一 个 模型 。 
下 面 这 张 条 形 图 (图 7-2) 给 出 了 Logistic 回归 模型 中 最 大 的 25 个 系数 与 最 小 的 25 个 系 
数 ， 其 高 度 表 示 每 个 系数 的 大 小 : 
In[26]: 

mglearn.tools.visualize coefficients( 


grid.best estimator_.named_steps["logisticregression"].coef_ , 
feature_names，n_top_features=40) 
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7-2: 在 二 idf 特征 上 训练 的 Logistic 回归 的 最 大 系数 和 最 小 系数 





左 侧 的 负 系 数 属于 模型 找到 的 表示 负面 评论 的 单词 ， 而 右 侧 的 正 系数 属于 模型 找到 的 表 
示 正 面 评论 的 单词 。 大 多 数 单 词 都 是 非常 直观 的 ， 比 如 "worst" (最 差 )、"waste" ( 浪 
费 )、"disappointment” (失望 ) 和 "laughable” (可 笑 ) 都 表示 不 好 的 电影 评论 ， 而 
"exceLtLent" (优秀 )、"wonderful"” (精彩 )、"enjoyable"” ( 令 人 愉悦) 和 "refreshing" 
(耳目 一 新 ) 则 表示 正面 的 电影 评论 。 有 些 词 的 含义 不 那么 明确 ， 比 如 "bit”( 一 点 )、 
"job" (工作 ) 和 "today" (今天 )， 但 它们 可 能 是 类 似 "good job" (做 得 不 错 ) 和 “best 
today” (今日 最 佳 ) 等 短语 的 一 部 分 。 


7.7 ”多 个 单词 的 词 袋 〈n 元 分 词 ) 


使 用 词 袋 表示 的 主要 缺点 之 一 是 完全 舍弃 了 单词 顺序 。 因 此 , “it's bad, not good at all”( 电 
影 很 差 ， 一 点 也 不 好 ) 和 “ips good, not bad at all” (电影 很 好 ， 还 不 错 ) 这 两 个 字符 串 的 
词 袋 表示 完全 相同 ， 尽 管 它们 的 含义 相反 。 将 “not”( 不 ) 放 在 单词 前 面 ， 这 只 是 上 下 文 
很 重要 的 一 个 例子 〈 可 能 是 一 个 极端 的 例子 ) 。 幸 运 的 是 ， 使 用 词 袋 表 示 时 有 一 种 获取 上 
下 文 的 方法 ， 就 是 不 仅 考虑 单一 词 例 的 计数 ， 而 且 还 考虑 相 邻 的 两 个 或 三 个 词 例 的 计数 。 
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两 个 词 例 被 称 为 二 元 分 词 (bigram)， 三 个 词 例 被 称 为 三 元 分 词 (trigram)， 更 一 般 的 词 例 
序列 被 称 为 n 元 分 词 (n-gram)。 我 们 可 以 通过 改变 CountVectorizer 或 TfidfVectorizer 
的 ngram_range 参数 来 改变 作为 特征 的 词 例 范 围 。ngram_range 参数 是 一 个 元 组 ， 包 含 要 孝 
虑 的 词 例 序 列 的 最 小 长 度 和 最 大 长 度 。 下 面 是 在 之 前 用 过 的 玩具 数据 上 的 一 个 示例 : 


In[27]: 
print("bards_words:\n{}".format(bards_words)) 























Out[27] : 
bards_words: 
['The fool doth think he is wise,', 
"but the wise man knows himself to be a fool'] 


默认 情况 下 ， 为 每 个 长 度 最 小 为 1 且 最 大 为 1 的 词 例 序 列 (或 者 换 名 话说， 刚好 1 个 词 
例 ) 创建 一 个 特征 一 一 单个 词 例 也 被 称 为 一 元 分 词 (unigram) : 


In[28] : 
cv = CountVectorizer(ngram_range=(1, 1)).fit(bards_words) 
print("Vocabulary size: {}".format(len(cv.vocabulary_))) 
print("Vocabulary:\n{}".format(cv.get feature_names())) 








Out[28]: 
Vocabulary size: 13 
Vocabulary: 
['be', 'but', 'doth', 'fool', 'he', 'himself', 'is', 'knows', 'man', 'the', 
'think', 'to', 'wise'] 


要 想 仅 查看 二 元 分 词 ( 即 仅 查 看 由 两 个 相 邻 词 例 组 成 的 序列 ) ， 可 以 将 ngram_range 设置 
为 (25 2): 


In[29]: 
cv = CountVectorizer(ngram_range=(2, 2)).fit(bards_words) 
print("Vocabulary size: {}".format(len(cv.vocabulary_))) 
print("Vocabulary:\n{}".format(cv.get feature_names())) 


Out[29] : 
Vocabulary size: 14 
Vocabulary: 
['be fool', 'but the', 'doth think', 'fool doth', 'he is', 'himself to', 
'is wise', 'knows himself', 'man knows', 'the fool', 'the wise', 
'think he', 'to be', 'wise man'] 
使 用 更 长 的 词 例 序 列 通常 会 得 到 更 多 的 特征 ， 也 会 得 到 更 具体 的 特征 。bard_words 的 两 个 
短语 中 没有 相同 的 二 元 分 词 : 


In[30]: 
print("Transformed data (dense):\n{}".format(cv.transform(bards_words).toarray())) 





Out[30]: 
Transformed d 
[[6061110 
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对 于 大 多 数 应 用 而 言 ， 最 小 的 词 例 数量 应 该 是 1， 因 为 单个 单词 通常 包含 丰富 的 含义 。 在 
大 多 数 情况 下 ， 添 加 二 元 分 词 会 有 所 帮助 。 添 加 更 长 的 序列 (一 直到 五 元 分 词 ) 也 可 能 
所 帮助 ， 但 这 会 导致 特征 数量 的 大 大 增加 ， 也 可 能 会 导致 过 拟 合 ， 因 为 其 中 包含 许多 非常 
具体 的 特征 。 原 则 上 来 说 ， 二 元 分 词 的 数量 是 一 元 分 词 数 量 的 平方 ， 三 元 分 词 的 数量 是 一 
元 分 词 数量 的 三 次 方 ， 从 而 导致 非常 大 的 特征 空间 。 在 实践 中 ， 更 高 的 元 分 词 在 数据 中 
的 出 现 次 数 实际 上 更 少 ， 原 因 在 于 (英语 ) 语言 的 结构 ， 不 过 这 个 数字 仍然 很 大 。 
下 面 是 在 bards_words 上 使 用 一 元 分 词 、 二 元 分 词 和 三 元 分 词 的 结果 : 
In[31]: 
= CountVectorizer(ngram_range=(1, 3)).fit(bards_words) 


print("Vocabulary size: {}".format(len(cv.vocabulary_))) 
print("Vocabulary:\n{}".format(cv.get_ feature_names())) 





















































Out[31] : 

Vocabulary size: 39 

Vocabulary: 

['be', 'be fool', 'but', 'but the'’, 'but the wise', 'doth', 'doth think', 
'doth think he', 'fool', 'fool doth', 'fool doth think', 'he', 'he is', 
'he is wise', 'himself', 'himself to', 'himself to be', 'is', 'is wise', 
'knows', 'knows himself', 'knows himself to', 'man', 'man knows', 
'man knows himself', 'the', 'the fool', 'the fool doth', 'the wise', 
'the wise man', 'think', 'think he', 'think he is', 'to', 'to be', 
'to be fool', 'wise', 'wise man', 'wise man knows'] 


我 们 在 IMDb 电影 评论 数据 上 尝试 使 用 Tfidfvectorizer， 并 利用 网 格 搜 索 找 出 元 分 词 的 
最 佳 设置 : 


In[32] : 
pipe = make_pipeline(TfidfVectorizer(min df=5), LogisticRegression()) 
# 运行 网 格 搜 索 需 要 很 长 时 间 ， 因 为 网 格 相 对 较 大 ， 且 包含 三 元 分 词 
param_grid = {"logisticregression CGC": [0.001, 0.01, 0.1, 1, 10, 100], 
"tfidfvectorizer__ngram_range": [(1, 1), (1, 2), (1, 3)]} 




















grid = GridSearchCV(pipe, param_grid, cv=5) 

grid.fit(text_ train, y_train) 

print("Best cross-validation score: {:.2f}".format(grid.best_score_ )) 
print("Best parameters:\n{}".format(grid.best_params_ )) 


Out[32] : 
Best cross-validation score: 0.91 
Best parameters : 
{'tfidfvectorizer__ngram_range': (1, 3), "Logisticregression _ C': 100} 


从 结果 中 可 以 看 出 ， 我 们 添加 了 二 元 分 词 特征 与 三 元 分 词 特 征 之 后 ， 性 能 提高 了 一 个 百 分 
点 多 一 点 。 我 们 可 以 将 交 又 验证 精度 作为 ngram_range 和 C 参数 的 函数 并 用 热 图 可 视 化 ， 
正如 我 们 在 第 5 章 中 所 做 的 那样 ( 见 图 7-3) : 


In[33]: 
# 从 网 格 搜索 中 提取 分 数 


scores = grid.cv_results_['mean_test_score'l].reshape(-1, 3).T 
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# 热 图 可 视 化 

heatmap = mgLearn.tooLs.heatmap( 
scores, xlabel="C", ylabel="ngram_range", cmap="viridis", fmt="%.3f", 
xticklabels=param_grid['logisticregression _C'], 
yticklabels=param_grid['tfidfvectorizer__ngram_range']) 

plt.colorbar(heatmap) 
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7-3: 交叉 验证 平均 精度 作为 参数 ngram_range 和 C 的 函数 的 热 图 可 视 化 





从 热 图 中 可 以 看 出 ， 使 用 二 元 分 词 对 性 能 有 很 大 提高 ， 而 添加 三 元 分 词 对 精度 只 有 很 小 贡 
献 。 为 了 更 好 地 理解 模型 是 如 何 改进 的 ， 我 们 可 以 将 最 佳 模 型 的 重要 系数 可 视 化 ， 其 中 包 
含 一 元 分 词 、 二 元 分 词 和 三 元 分 词 ( 见 图 7-4) : 


In[34]: 
# 提取 特征 名 称 与 系数 
vect = grid.best estimator_.named_steps['tfidfvectorizer'] 
feature_names = np.array(vect.get_ feature_names()) 
coef = grid.best estimator_.named_steps['logisticregression'].coef_ 
mglearn.tools.visualize coefficients(coef, feature names, nN_top_features=40) 
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有 几 个 特别 有 趣 的 特征 ， 它 们 包含 单词 "worth" (值得 )， 
分 词 模型 中 : "not worth" (不 值得 ) 表示 负 
和 "well worth" (很 值得 ) 表示 正面 评论 。 这 是 上 下 文 


接 下 来 ,我们 只 将 三 元 分 词 可 视 化 ， 以 进一步 深入 了 解 这 些 特 生 














人 
原 乡 


E 有 用 的 原 








而 这 个 词 本 身 并 没有 出 现在 一 元 
面 评论 ， 而 "definiteLy worth”( 绝 对 值得 ) 
响 "worth" 一 词 含 义 的 主要 示例 。 





因 。 许 多 有 用 


的 二 元 分 词 和 三 元 分 词 都 由 常见 的 单词 组 成 ,这些 单词 本 身 可 能 没有 什么 信息 量 ， 比 如 





"none of the" (没有 一 个 )、 


"the only good" ( 叭 


一 好 的 ) 、"on and on" (不 停 地 )、"this 




















is one" (这 是 一 部 )、"of the most" (最 ) 等 短语 中 的 单词 。 但 是 ， 与 一 元 分 词 特征 的 重 
要 性 相 比 ， 这 些 特征 的 影响 非常 有 限 ， 正 如 图 7-5 所 示 。 
In[35] : 

# 找到 三 元 分 词 特征 

mask = np.array([len(feature.split(" ")) for feature in feature_names]) == 3 

# 仅 将 三 元 分 词 特征 可 视 化 





mgLearn.tooLs.visuaLize_coefficients(coef.raveL()[mask]， 
feature_names[mask]，n_top_features=40) 








和 


0 


Coefficient magnitude 

















Feature 








7-5: 仅 将 对 模型 重要 的 三 元 分 词 特征 可 视 化 


7.8 高 级 分 词 、 


词 干 提取 与 词 形 还 原 


如 前 所 述 ，CountVectorizer 和 TfidfVectorizer 中 的 特征 提取 相对 简单 ， 还 有 更 为 复杂 
的 方法 。 在 更 加 复杂 的 文本 处 理应 用 中 ， 通 向 需要 改进 的 步骤 是 词 袋 模型 的 第 一 步 : 分 词 








(tokenization) 。 这 一 步 又 为 特 行 





我 们 前 面 看 到 ， 词 表 中 通常 同 


E 提 取 定 义 了 一 个 单词 是 如 何 构 成 的 。 
时 包含 某 些 单词 的 单数 形式 和 复数 形式 ， 比 如 "drawback" 











和 "drawbacks"、"drawer" 和 "drawers"、"drawing" 和 "drawings"。 对 于 词 袋 模型 而 言 ， 
"drawback" 和 "drawbacks" 的 语义 非常 接近 ， 区 分 二 者 只 会 增加 过 拟 合 ， 并 导致 模型 无 法 
充分 利用 训练 数据 。 同 样 我 们 还 发 现 ， 词 表 中 包含 像 "replace"、"replaced"、"replace 
ment"、"replaces" 和 "replacing" 这 样 的 单词 ， 它 们 都 是 动词 “to replace” 的 不 同 动词 形 


式 或 相关 名 词 。 与 名 词 的 单 复 








数 形式 一 样 ， 将 不 同 的 动词 形式 及 相关 单词 视 为 不 同 的 词 


例 ， 这 不 利于 构建 具有 良好 谤 化 性 能 的 模型 。 
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这 个 问题 可 以 通过 用 词 干 (word stem) 表示 每 个 单词 来 解决 ， 这 一 方法 涉及 找 出 [或 合并 
(conflate) ] 所 有 具有 相同 词 干 的 单词 。 如 果 使 用 基于 规则 的 启发 法 来 实现 〈 比 如 删除 常见 
的 后 级)， 那 么 通常 将 其 称 为 词 干 提取 (stemming)。 如 果 使 用 的 是 由 已 知 单词 形式 组 成 的 
字典 (明确 的 且 经 过 人 工 验 证 的 系统 )， 并 且 考 虑 了 单词 在 句子 中 的 作用 ， 那 么 这 个 过 程 
被 称 为 词 形 还 原 (lemmatization) ， 单 词 的 标准 化 形式 被 称 为 词 元 (lemma)。 词 干 提取 和 
词 形 还 原 这 两 种 处 理 方法 都 是 标准 化 (normalization) 的 形式 之 一 ， 标 准 化 是 指 尝试 提取 
一 个 单词 的 某 种 标准 形式 。 标 准 化 的 另 一 个 有 趣 的 例子 是 拼写 校正 ， 这 种 方法 在 实践 中 很 
有 用 ， 但 超出 了 本 书 的 范围 。 

为 了 更 好 地 理解 标准 化 ， 我 们 来 对 比 一 种 词 干 提取 方法 (Porter 词 干 提取 器 ,一 种 广泛 使 
用 的 启发 法 集合 ， 从 nttk 包 导 入 ) 与 spacy 包 “中 实现 的 词 形 还 原 : ” 


In[36] : 
import spacy 
import nltk 










































































# 加 载 spacy 的 英语 模型 
en_nlp = spacy.load('en') 
# 将 nttk 的 Porter 词 干 提取 器 实例 化 


stemmer = nltk.stem.PorterStemmer() 


# 定义 一 个 函数 来 对 比 spacy 中 的 词 形 还 原 与 nttk 中 的 词 干 提取 
def compare_normalization(doc): 
# 在 spacy 中 对 文档 进行 分 词 
doc_spacy = en_nlp(doc) 
# 打印 出 spacy 找 到 的 词 元 
print("Lemmatization:") 
print([token.lemma_ for token in doc_spacy]) 
# 打印 出 Porter 词 干 提取 器 找到 的 词 例 
print("Stemming:") 
print([stemmer .stem(token.norm_ .Lower()) for token in doc_spacy]) 


我 们 将 用 一 个 句子 来 比较 词 形 还 原 与 Porter 词 干 提取 器 ， 以 显示 二 者 的 一 些 区 别 : 
In[37] : 


Compare_normaLization(u"Our meeting today was worse than yesterday, " 
"I'm scared of meeting the clients tomorrow.") 














Out[37]: 
Lemmatization: 
['our', 'meeting', 'today', 'be', 'bad', 'than', 'yesterday', ',', 'i', 'be', 
'scared', 'of', 'meet', 'the', 'client', 'tomorrow', '.'] 
Stemming: 
['our', 'meet', 'today', 'wa', 'wors', 'than', 'yesterday'’, ',', 'i', "'m", 
'scare', 'of', 'meet', 'the', 'client', 'tomorrow', '.'] 











注 11: 安装 spacy 包 之 后 需要 下 载 相 应 的 语言 包 ， 你 可 以 在 命令 行 输入 python3 -m spacy download en 来 下 
载 英语 语言 包 。 一 一 译 者 注 

注 12: 想 了 解 接口 的 细节 ， 请 参阅 nLtk (http://www.nltk.org/) 和 spacy (https://spacy.io/docs/) 的 文档 。 我 们 
这 里 更 关 广 一 般 性 原则 。 

注 13: 175 版 的 spacy 将 "our' 、' 等 代词 全 部 还 原 为 '-PRON-' ， 详 情 请 参见 spacy 官方 文档 。 一 一 译 者 注 
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词 干 提取 总 是 局 限于 将 单词 简化 成 词 干 ， 因 此 "was" 变 成 了 "wa"， 而 词 形 还 原 可 以 得 到 正 
确 的 动词 基本 词 形 "be" 。 同 样 ， 词 形 还 原 可 以 将 "worse" 标准 化 为 "bad"， 而 词 干 提取 得 


到 的 是 " 











wors"。 另 一 个 主要 区 别 在 于 ， 词 干 提取 将 两 处 "neeting" 都 简化 为 "meet"。 利 用 


词 形 还 原 ， 第 一 处 "meeting" 被 认为 是 名 词 ， 所 以 没有 变化 ， 而 第 二 处 "meeting" 被 认为 
是 动词 ， 所 以 变 为 "meet"。 一 般 来 说 ， 词 形 还 原 是 一 个 比 词 干 提取 更 复杂 的 过 程 ， 但 用 于 


机 器 学 习 的 词 例 标准 化 时 通常 可 以 给 出 比 词 干 提取 更 好 的 结果 。 

















虽然 scikit-learn 没有 实现 这 两 种 形式 的 标准 化 ， 但 CountVectorizer 人 允许 使 用 tokenizer 


参数 来 指定 使 用 你 





还 原 了 创建 一 个 可 调用 对 象 ， 它 接受 一 个 字符 串 并 生成 一 个 词 元 列表 : 


In[38 


# 技术 细 方 : 
# 并 仅 使 用 


] : 






































我 们 希望 使 用 由 CountVectorizer 所 使 用 的 基于 正则 表达 式 的 分 词 器 ， 











spacy 的 词 形 还 原 。 


# 为 此 ， 我 们 将 en_nLp.tokenizer (spacy 分 词 器 ) 替换 为 基于 正则 表达 式 的 分 词 。 
import re 
# 在 CountVectorizer 中 使 用 的 正则 表达 式 

regexp = re.compile('(?u)\\b\\w\\w+\\b') 


# 加 载 spacy 语 言 模 型 ， 并 保存 旧 的 分 词 器 

en_nlp = spacy.Load('en ') 

old_tokenizer = en_nlp.tokenizer 

# 将 分 词 器 桂 换 为 前 面 的 正则 表达 式 

en_nlp.tokenizer = Lambda string: old_tokenizer.tokens_from list( 
regexp.findall(string)) 


























# 用 spacy 文 档 处 理 管道 创建 一 个 自 定义 分 词 器 
# (现在 使 用 
def custom tokenizer(document): 

doc_spacy = en_nlp(document, entity=False, parse=False) 


# 利 | 月 





return [ 











我 们 自己 的 分 词 器 ) 





token.Lemma_ for token in doc_spacy] 


日 自 定义 分 词 器 来 定义 一 个 计数 向 量 器 


Lemma_vect = CountVectorizer(tokenizer=custom_tokenizer, min_df=5) 


我 们 变换 数据 并 检查 词 表 的 大 小 : 


In[39 


# 利 | 月 





] : 





日 带 词 形 还 原 的 CountVectorizer 对 text_train 进 行 变换 


X_train lemma = lemma_ vect.fit transform(text_train) 
print("X_train_ lemma.shape: {}".format(X_train_lemma.shape)) 


# 标准 的 CountVectorizer， 以 供 参 考 

vect = CountVectorizer(min df=5).fit(text_train) 
X_train = vect.transform(text_train) 
print("X_train.shape: {}".format(X_train.shape)) 


Out[3 


9] : 


Xx_train_lemma.shape: (25000，21596) 
Xx_train.shape: (25000, 27271) 





从 输 


中 可 以 看 





HH ， 词 形 还 原 将 特征 数量 从 27 271 个 (标准 的 CountVectorizer 处 到 





自己 的 分 词 器 将 每 个 文档 转换 为 词 例 列 表 。 我 们 可 以 使 用 spacy 的 词 形 


过 程 ) 
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减少 到 21 596 个 。 词 形 还 原 可 以 被 看 作 是 一 种 正则 化 ， 因 为 它 合并 了 某 些 特征 。 因 此 我 们 
预计 ， 数 据 集 很 小 时 词 形 还 原 对 性 能 的 提升 最 大 。 为 了 说 明 词 形 还 原 的 作用 ， 我 们 将 使 用 
Stratifiedshufflesplit 做 交叉 验证 ， 仅 使 用 1% 的 数据 作为 训练 数据 ， 其 余数 据 作为 测试 


数据 : 
In[40]: 
# 仅 使 用 1% 的 数据 作为 训练 集 来 构建 网 格 搜索 


from sklearn.model_selection import StratifiedShuffleSplit 








param_grid = {'C': [0.001, 0.01, 0.1, 1, 10]} 

cv = StratifiedShuffleSplit(n_splits=5, test_size=0.99, 
train_size=0.01, random_state=0) 

grid = GridSearchCV(LogisticRegression(), param_grid, cv=cv) 

# 利用 标准 的 CountVectorizer 进 行 网 格 搜 索 

grid.fit(X_train, y_train) 

print("Best cross-validation score " 






































"(standard CountVectorizer): {:.3f}".format(grid.best_score )) 

















# 利用 词 形 还 原 进行 网 格 搜索 
grid.fit(X_train lemma, y_train) 
print("Best cross-validation score " 
"(lemmatization): {:.3f}".format(grid.best_score_)) 





Out[40] : 
Best cross-validation score (standard CountVectorizer): 0.721 
Best cross-validation score (lemmatization): 0.731 




















在 这 个 例子 中 ， 词 形 还 原 对 性 能 有 较 小 的 提高 。 与 许多 特征 提取 技术 一 样 ， 共 结果 因数 据 
集 的 不 同 而 不 同 。 词 形 还 原 与 词 干 提取 有 时 有 助 于 构建 更 好 的 模型 (或 至 少 是 更 简洁 的 模 
型 )， 所 以 我 们 建议 你 ， 在 特定 任务 中 努力 提升 最 后 一 点 性 能 时 可 以 尝试 下 这 些 技术 。 











7.9 主题 建 模 与 文档 聚 类 











常用 于 文本 数据 的 一 种 特殊 技术 是 主题 建 模 (topic modeling) ， 这 是 描述 将 每 个 文档 分 配 








给 一 个 或 多 个 主题 的 任务 (通常 是 无 监督 的 ) 的 概括 性 术语 。 这 方 本 











一 个 很 好 的 例子 是 新 





闻 数 据 ， 它 们 可 以 被 分 为 “政治 “体育 *"“ 人 金融 ”等 主题 。 如 果 为 每 个 文档 分 配 一 个 主 
题 ， 那 么 这 是 一 个 文档 聚 类 任务 ， 正 如 第 3 章 中 所 述 。 如 果 每 个 文档 可 以 有 多 个 主题 ， 那 
么 这 个 任务 与 第 3 章 中 的 分 解 方法 有 关 。 我 们 学 到 的 每 个 成 分 对 应 于 一 个 主题 ， 文 档 表 示 





中 的 成 分 系数 告诉 我 们 这 个 文档 与 该 主题 的 相关 性 强 弱 。 通 常 来 说 ， 




















人 们 在 谈论 主题 建 模 


时 ， 他 们 指 的 是 一 种 叫 作 隐 含 狄 利克 雷 分 布 (Latent Dirichlet Allocation，LDA) 的 特定 分 


解 方法 。” 


隐 含 狄 利克 雷 分 布 


从 直观 上 来 看 ，LDA 模型 试图 找 出 频繁 共同 出 现 的 单词 群 组 〈( 即 主题 )。LDA 还 要 求 ， 每 











注 14: 还 有 另 一 种 机 器 学 习 模型 通常 也 简称 为 LDA， 那 就 是 线性 判别 分 析 (Linear Discriminant Analysis ) ， 
一 种 线性 分 类 模型 。 这 造成 了 很 多 混乱 。 在 本 书 中 ，LDA 是 指 隐 含 狄 利克 雷 分 布 。 














A 
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个 文档 可 以 被 理解 为 主题 子 集 的 “混合 *。 重 要 的 是 要 理解 ， 机 器 学 习 模型 所 谓 的 “ 主 
题 ” 可 能 不 是 我 们 通常 在 日 常 对 话 中 所 说 的 主题 ， 而 是 更 类 似 于 PCA 或 NME (第 3 章 
讨论 过 这 些 内容 ) 所 提取 的 成 分 ， 它 可 能 具有 语义 ， 也 可 能 没有 。 即 使 LDA“ 主 题 ” 具 
有 语义 ， 它 可 能 也 不 是 我 们 通常 所 说 的 主题 。 回 到 新 闻 文 章 的 例子 ， 我 们 可 能 有 许多 关 
于 体育 、 政 治 和 金融 的 文章 ， 由 两 位 作者 所 写 。 在 一 篇 政治 文章 中 ， 我 们 预计 可 能 会 看 
到 “州长 "“ 投 票 ”“ 觉 派 ”等 词语 ， 而 在 一 篇 体育 文章 中 ， 我 们 预计 可 能 会 看 到 类 似 “ 队 
伍 ”“ 得 分 ”和 “赛季 ”之 类 的 词语 。 这 两 组 词语 可 能 会 同时 出 现 ， 而 例如 “队伍 ”和 
“州长 ”就 不 太 可 能 同时 出 现 。 但 是 ， 这 并 不 是 我 们 预计 可 能 同时 出 现 的 唯一 的 单词 群 组 。 
这 两 位 记者 可 能 偏爱 不 同 的 短语 或 者 选择 不 同 的 单词 。 可 能 其 中 一 人 喜欢 使 用 “ 划 界 ” 
(demarcate) 这 个 词 ， 而 另 一 人 喜欢 使 用 “两 极 分 化 ”(polarize) 这 个 词 。 其 他 “主题 ”可 
能 是 “记者 A 常用 的 词语 ”和 “记者 B 常用 的 词语 ”"， 虽 然 这 并 不 是 通常 意义 上 的 主题 。 
我 们 将 LDA 应 用 于 电影 评论 数据 集 ， 来 看 一 下 它 在 实践 中 的 效果 。 对 于 无 监督 的 文本 文档 
模型 ,通常 最 好 删除 非常 常见 的 单词 ， 否 则 它们 可 能 会 支配 分 析 过 程 。 我 们 将 删除 至 少 在 
15% 的 文档 中 出 现 过 的 单词 ， 并 在 删除 前 15% 之 后 ， 将 词 袋 模型 限定 为 最 常见 的 10 000 个 
单词 : 

In[41]: 


vect = CountVectorizer(max_features=10000, max_df=.15) 
X = vect.fit transform(text_train) 


我 们 将 学 习 一 个 包含 10 个 主题 的 主题 模型 ， 它 包含 的 主题 个 数 很 少 ， 我 们 可 以 查看 所 有 
主题 。 与 NMF 中 的 分 量 类 似 ， 主 题 没 有 内 在 的 顺序 ， 而 改变 主题 数量 将 会 改变 所 有 主 
题 。” 我 们 将 使 用 "batch" 学 习 方 法 ， 它 比 默认 方法 ("ontine") 稍 慢 ， 但 通常 会 给 出 更 好 
的 结果 。 我 们 还 将 增 大 max_iter ， 这 样 会 得 到 更 好 的 模型 : 
In[42]: 

from sklearn.decomposition import LatentDirichletAllocation 

lda = LatentDirichletAllocation(n_topics=10, learning_method="batch", 

max_iter=25, random_state=0) 

# 我 们 在 一 个 步骤 中 构建 模型 并 变换 数据 

# 计算 变换 需要 花 点 时 间 ， 二 者 同时 进行 可 以 节省 时 间 

document_topics = lda.fit transform(X) 
与 第 3 章 中 所 讲 的 分 解 方法 类 似 ，LatentDirichLetALLocation 有 一 个 components_ 属性 ， 
其 中 保存 了 每 个 单词 对 每 个 主题 的 重要 性 。components_ 的 大 小 为 (n_topics, n_words): 


In[43]: 
lda.components_.shape 



















































































Out[43] : 

(10，10000) 
为 了 更 好 地 理解 不 同 主题 的 含义， 我 们 将 查看 每 个 主题 中 最 重要 的 单词 。print_topics 国 
数 为 这 些 特征 提供 了 民 好 的 格式 : 



































注 15: 事实 上 ，NMEF 和 LDA 解决 的 是 非常 相关 的 问题 ， 我 们 也 可 以 用 NMEF 来 提取 主题 。 
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In[44] : 


# 对 于 每 个 主题 (components_ 的 一 行 ) ， 将 特 行 








# 用 [:，::-1] 将 行 反 转 ， 使 排序 变 为 降序 


sorting = np.argsort(lda.components_, axis=1)[:, :: 





# 从 向 量 器 中 获取 特征 名 称 


np.array(vect.get_ feature_names()) 


feature_names = 


In[45]: 





# 打印 出 前 16 个 六 


FE 题 : 








E 排 序 (升序 ) 


| 


mglearn.tools.print_ topics(topics=range(10), feature_names=feature_names, 
sorting=sorting, topics_per_chunk=5, n_words=10) 


Out[45] : 


between 
young 
family 

real 
performance 
beautiful 
work 

each 

both 
director 


horror 
action 
effects 
budget 
nothing 
original 
director 
minutes 
pretty 
doesn 


从 重要 的 单词 来 看 ， 主 题 1 似乎 是 关于 历史 和 战争 的 


our 
american 
documentary 
history 

new 


kids 
action 
animation 
game 

fun 
disney 
children 
10 

kid 

old 


stupid 
actually 
nothing 
want 


version 
novel 

both 
director 
played 
performance 
mr 





show 
series 
episode 

tv 
episodes 
shows 
season 

new 
television 
years 


performance 
role 

john 

actor 

oscar 

cast 

plays 

jack 

joe 
performances 

















am 
thought 
years 
book 
watched 
now 

dvd 

got 


gets 
killer 
girl 
wife 
horror 
young 
goes 
around 


电影 ， 主 题 2 可 能 是 关于 糟糕 的 喜 


剧 ， 主 题 3 可 能 是 关于 电视 连续 剧 ， 主 题 4 可 能 提取 了 一 些 非常 常见 的 单词 ， 而 主题 6 似 





平 是 关于 儿童 电影 ， 主 题 8 似乎 提取 了 与 获奖 相关 的 评论 。 





又 使 用 10 个 主题 ， 每 个 主题 


都 需要 非常 宽泛 ， 才 能 共同 涵盖 我 们 的 数据 集中 所 有 不 同类 型 的 评论 。 


接 下 来 ， 我 们 将 学 习 另 一 个 模型 ， 这 次 包含 100 个 主题 。 使 用 更 多 的 主题 ， 将 使 得 分 析 过 
程 更 加 困难 ， 但 更 可 能 使 主题 专门 针对 于 某 个 有 趣 的 数据 子 集 : 

















In[46]: 





1da100 = LatentDirichletAllocation(n_topics=100, learning_method="batch", 
max_iter=25, random_state=0) 


document_topics100 = lda100.fit transform(X) 
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查看 所 有 100 个 主题 可 能 有 点 困 


In[47] : 
topics = np.array([7, 16, 24, 25, 28, 36, 37, 45, 51, 53, 54, 63, 89, 97]) 


> 





任 ， 所 以 我 们 选取 了 一 些 有 趣 的 而 且 有 代表 性 的 主题 : 











sorting = np.argsort(Lda100.components_，axis=1)[:，::-1] 

feature_names = np.array(Vvect.get_feature_names()) 

mglearn.tools.print topics(topics=topics, feature_names=feature_names, 
sorting=sorting, topics_per_chunk=7, n_words=20) 


Out[47] : 
topic 7 topic 16 topic 24 topic 25 topic 28 
thriller worst german car beautiful 
suspense awful hitler gets young 
horror boring nazi guy old 
atmosphere horrible midnight around romantic 
mystery stupid joe down between 
house thing germany kiLL romance 
director terrible years goes wonderful 
quite script history killed heart 
bit nothing new going feel 
de worse modesty house year 
performances waste Cowboy away each 
dark pretty jewish head french 
twist minutes past take sweet 
hitchcock didn kirk another boy 
tension actors young getting Loved 
interesting actually spanish doesn girl 
mysterious re enterprise now relationship 
murder supposed von night saw 
ending mean nazis right both 
creepy want spock woman simple 
topic 36 topic 37 topic 41 topic 45 topic 51 
performance excellent war music earth 
role highly american song space 
actor amazing world songs planet 
cast wonderful soldiers rock superman 
play truly military band alien 
actors superb army soundtrack world 
performances actors tarzan singing evil 
played brilliant soldier voice humans 
supporting recommend america singer aliens 
director quite country sing human 
oscar performance americans musical creatures 
roles performances during roll miike 
actress perfect men fan monsters 
excellent drama us metal apes 
screen without government concert clark 
plays beautiful jungle playing burton 
award human vietnam hear tim 
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work moving ii fans outer 


playing world political prince men 
gives recommended against especially moon 
topic 53 topic 54 topic 63 topic 89 topic 97 
scott money funny dead didn 
gary budget comedy zombie thought 
streisand actors Laugh gore wasn 
star low jokes zombies ending 
hart worst humor blood minutes 
Lundgren waste hilarious horror got 
dolph 10 Laughs flesh felt 
career give fun minutes part 
sabrina want re body going 
role nothing funniest living seemed 
temple terrible Laughing eating bit 
phantom crap joke flick found 
judy must few budget though 
melissa reviews moments head nothing 
zorro imdb guy gory Lot 
gets director unfunny evil saw 
barbra thing times shot Long 
cast believe Laughed Low interesting 
short am comedies fulci few 
serial actually isn re half 

















这 次 我 们 提取 的 主题 似乎 更 加 具体 ， 不 过 很 多 都 难以 解读 。 主 题 7 似乎 是 关于 人 恋 怖 电影 和 


惊悚 片 ， 主 题 16 和 54 似乎 是 关于 不 好 的 评论 ， 而 主题 63 似乎 主要 是 关于 喜剧 的 正 夯 
论 。 如 果 想 要 利用 发 现 的 主题 做 出 进一步 的 推断 ， 
档 ， 以 验证 我 们 通过 查 











1 评 








是 关于 音乐 的 。 我 们 来 查看 哪些 评论 被 分 配给 了 这 
In[49]: 


# 打印 出 这 个 主题 最 重要 的 前 5 个 文档 


# 按 主题 45 “nustc” 进 行 排序 


music = np.argsort(document_ topics100[:, 45])[::-1] 











for i in music[:10]: 
# 显示 前 两 个 句子 
print(b".".join(text train[i].split(b".")[:2]) + b".\n") 


Out[49] : 


b'I Love this movie and never get tired of watching. The music in it is great.\n 

b"I enjoyed Still Crazy more than any film I have seen in years. A successful 
band from the 70's decide to give it another try.\n" 

b'Hollywood Hotel was the last movie musical that Busby Berkeley directed for 
Warner Bros. His directing style had changed or evolved to the point that 
this film does not contain his signature overhead shots or huge production 
numbers with thousands of extras.\n' 

b"What happens to washed up rock-n-roll stars in the late 1990's? 
They launch a comeback / reunion tour. At least, that's what the members of 
Strange Fruit, a (fictional) 70's stadium rock group do.\n" 


那么 我 们 应 该 查看 分 配给 这 些 主题 的 文 
看 每 个 主题 排名 最 靠 前 的 Se 
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b'As a big-time Prince fan of the Last three to four years, I really can\'t 
believe I\'ve only just got round to watching "Purple Rain". The brand new 
2-disc anniversary Special Edition Led me to buy it.Nn' 

b"This film is worth seeing alone for Jared Harris' outstanding portrayal 
of John Lennon. It doesn't matter that Harris doesn't exactly resemble 
Lennon; his mannerisms, expressions, posture, accent and attitude are 
pure Lennon.\n" 

b"The funky, yet strictly second-tier British glam-rock band Strange Fruit 
breaks up at the end of the wild'n'wacky excess-ridden 70's. The individual 
band members go their separate ways and uncomfortably settle into lackluster 
middle age in the dull and uneventful 90's: morose keyboardist Stephen Rea 
winds up penniless and down on his luck, vain, neurotic, pretentious lead 
singer Bill Nighy tries (and fails) to pursue a floundering solo career, 
paranoid drummer Timothy Spall resides in obscurity on a remote farm so he 
can avoid paying a hefty back taxes debt, and surly bass player Jimmy Nail 
installs roofs for a living.\n" 

b"I just finished reading a book on Anita Loos' work and the photo in TCM 
Magazine of MacDonald in her angel costume looked great (impressive wings), 
so I thought I'd watch this movie. I'd never heard of the film before, so I 
had no preconceived notions about it whatsoever.\n" 

b'I Love this movie!!! Purple Rain came out the year I was born and it has had 
my heart since I can remember. Prince is so tight in this movie.Nn' 

b"This movie is sort of a Carrie meets Heavy Metal. It's about a highschool 
guy who gets picked on alot and he totally gets revenge with the help of a 
Heavy Metal ghost.\n" 


可 以 看 出 ， 这 个 主题 涵盖 许多 以 音乐 为 主 的 评论 ， 从 音乐 剧 到 传记 电影 ， 再 到 最 后 一 条 评 
论 中 难以 归 类 的 类 型 。 查 看 主题 还 有 一 种 有 趣 的 方法 ， 就 是 通过 对 所 有 评论 的 document_ 
topics 进行 求 和 来 查看 每 个 主题 所 获得 的 整体 权重 。 我 们 用 最 常见 的 两 个 单词 为 每 个 主题 
命名 。 图 7-6 给 出 了 学 到 的 主题 权重 : 


In[50] : 
fig, ax = plt.subplots(1, 2, figsize=(10, 10)) 
topic names = ["{:>2} ".format(i) + " ".join(words) 
for i, words in enumerate(feature names[sorting[:, :2]])] 
# 两 列 的 条 形 图 : 
for coL in [0, 1]: 
start = col * 50 
end = (col + 1) * 50 
ax[col].barh(np.arange(50), np.sum(document_topics100, axis=0)[start:end]) 
ax[coL].set_yticks(np.arange(50)) 
ax[col].set yticklabels(topic names[start:end], ha="left", va="top") 
ax[col].invert_yaxis() 
ax[col].set xlim(0, 2000) 
yax = ax[coL].get_yaxis() 
yax.set tick_params(pad=130) 
plt.tight_layout() 
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0 silent hollywood 


1 kelly sinatra 


2 world australian 


3 god church 
4batman jane 


5 horror zombie 


6 new city 


7 drew baseball 


8 guy car 


9 music michael 


10 ed wood 
11 hitler bugs 
12 jones dan 


13 seems audience 
14 ford american 
15 series episode 


16 didn going 
17 french paris 
18 bill oliver 


19 performance cast 


20 fight lee 
21 war world 


22 funny comedy 
23 japanese animation 


24 ben lines 


25 emma elvira 


26 anna taylor 


27 robert grand 


28 years saw 


29 george simon 
30 superman indian 


31 school high 
32 fantasy rob 


33 minutes hour 


34fisci 


35 british arthur 


36 role oscar 
37 ship titanic 
38 woman wife 
39 son father 
40 budget low 


41 version actors 
42 musical song 


43 harry action 
44 sex nudity 


45 documentary footage 
46 wife husband 


47 part che 
48 black white 
49 dvd release 





50 richard candy 
51 world green 
52 witch mr 

53 moon mike 
54 show shows 
55 dog prison 

56 tom jerry 

57 gay davis 

58 wantl 

59 italian zero 
60 chan jackie 
61 war men 

62 doctor dr 

63 drugs drug 

64 charlie adam 
65 island boat 
66 joe city 

67 tarzan jane 
68 game games 
69 men screen 
70 worst script 
71 old steve 

72 western stewart 
73 eddie 80s 

74 tony park 

75 match ring 

76 killer girl 

77 horror scary 
78 mother family 
79 peter allen 

80 action military 
81 star wars 

82 art beautiful 
83 keaton computer 
84 family kids 

85 de john 

86 fun 10 

87 page chris 

88 jeff wave 

89 jack king 

90 van jean 

91 nightmare freddy 
92 john johnny 
93 effects special 
94 young queen 
95 grace bruce 
96 book read 

97 our us 

98 original disney 
99 andy sean 


1500 2000 0 500 1000 1500 2000 
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7-6: LDA 学 到 的 主题 权重 





最 重要 的 主题 是 主题 "7， 它 可 能 主要 包含 停 用 词 ， 可 能 还 有 一 些 稍 负面 的 单词 ， 主 题 16 


明显 是 有 关 负 

















看 评论 的 ， 然 后 是 一 些 特定 类 型 的 主题 与 主题 36 和 37， 这 二 者 似乎 都 包含 











表示 赞美 的 单词 。 


除了 几 个 不 太 有 具体 的 主题 之 外 ，LDA 似乎 主要 发 现 了 两 种 主题 : 特定 类 型 的 主题 与 特定 评 
分 的 主题 。 这 是 一 个 有 趣 的 发 现 ， 因 为 大 部 分 评论 都 由 一 些 与 电影 相关 的 评论 与 一 些 证明 
或 强调 评分 的 评论 组 成 。 

在 没有 标签 的 情况 下 (或 者 像 本 章 的 例子 这 样 ， 即 使 有 标签 的 情况 下 )， 像 LDA 这 样 的 主 
题 模 型 是 理解 大 型 文本 语料库 的 有 趣 方法 。 不 过 LDA 算法 是 随机 的 ， 改 变 random_state 
参数 可 能 会 得 到 完全 不 同 的 结果 。 虽 然 找到 主题 可 能 很 有 用 ， 但 对 于 从 无 监督 模型 中 得 
出 的 任何 结论 都 应 该 持 保留 态度 ， 我 们 建议 通过 查看 特定 主题 中 的 文档 来 验证 你 的 直觉 。 
LDA.transform 方法 生成 的 主题 有 时 也 可 以 用 于 监督 学 习 的 紧凑 表示 。 当 训练 样 例 很 少时 ， 
这 一 方法 特别 有 用 。 
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7.10 小 结 与 展望 


本 章 讨论 了 处 理 文本 [也 叫 自然 语言 处 理 (NLP) ] 的 基础 知识 ， 还 给 出 了 一 个 对 电影 评论 
进行 分 类 的 示例 应 用 。 如 果 你 想 要 尝试 处 理 文本 数据 ， 那 么 这 里 讨论 的 工具 应 该 是 很 好 的 
出 发 点 。 特 别 是 对 于 文本 分 类 任务 ， 比 如 检测 垃圾 邮件 和 欺诈 或 者 情感 分 析 ， 词 袋 模型 提 
供 了 一 种 简单 而 又 强大 的 解决 方案 。 正 如 机 器 学 习 中 常见 的 情况 ， 数 据 表示 是 NLP 应 用 的 
关键 ,检查 所 提取 的 词 例 和 nn 元 分 词 有 助 于 深入 理解 建 模 过 程 。 在 文本 处 理应 用 中 ， 对 于 
监督 任务 与 无 监督 任务 而 言 ， 通 常 都 可 以 用 有 意义 的 方式 对 模型 进行 内 省 ， 正 如 我 们 在 本 
章 所 见 。 在 实践 中 使 用 基于 NLP 的 方法 时 ， 你 应 该 充分 利用 这 一 能 力 。 

自然 语言 和 文本 处 理 是 一 个 很 大 的 研究 领域 ， 讨 论 其 高 级 方法 的 细节 已 经 远 远 超出 了 
本 书 范围 。 如 果 你 想 学 习 更 多 内 容 ， 我 们 推荐 阅读 Steven Bird、Ewan Klein 和 Edward 
Loper 合 著 的 Natural Language Processing with Python 一 书 (O’Reilly 出 版 社 ，http://shop. 
oreilly.com/product9780596516499.do) ， 其 中 给 出 了 NLP 的 概述 ， 并 介绍 了 ntLtk 这 个 用 
于 NLP 的 Python 库 。 另 一 本 很 好 且 概 念 性 更 强 的 书 是 Christopher Manning、Prabhakar 
Raghavan 和 Hinrich Schuiitze 合 著 的 标准 参 邦 ，Introduction to Information Retrieval (http:// 
nlp.stanford.edu/IR-book/)， 其 中 介绍 了 信息 检索 、NLP 和 机 器 学 习 中 的 基本 算法 。 这 两 本 
书 都 有 可 以 免费 访问 的 在 线 版 本 。 如 前 所 述 ，CountVectorizer 类 和 Tfidfvectorizer 类 仅 
实现 了 相对 简单 的 文本 处 理 方法 。 对 于 更 高 级 的 文本 处 理 方法 ， 我 们 推荐 使 用 Python 包 
spacy (一 个 相对 较 新 的 包 ， 但 非常 高 效 ， 且 设计 良好 ) 、nLtk (一 个 非常 完善 且 完 整 的 库 ， 
但 有 些 过 时 ) 和 gensim (着 重 于 主题 建 模 的 NLP 包 )。 

近年 来 ， 在 文本 处 理 方面 有 许多 非常 令 人 激动 的 新 进展 ， 这 些 内 容 都 超出 了 本 书 的 范围 ， 
并 且 都 和 神经 网 络 有 关 。 第 一 个 进展 是 使 用 连续 向 量 表示 ， 也 叫 作词 向 量 (word vector) 
或 分 布 式 词 表示 (distributed word representation)， 它 在 word2vec 库 中 实现 。Thomas 
Mikolov (等 人 的 原始 论文 )“Distributed Representations of Words and Phrases and Their 
Compo sitionality” (https://papers.nips.cc/paper/5021-distributed-representations-of-words-and- 
phrases-and-their-compositionality.pdf) 是 对 这 一 主题 的 很 好 介绍 。 对 于 这 篇 论文 及 其 后 续 
所 讨论 的 技术 ，spacy 和 gensiin 都 提供 了 相应 的 功能 。 


近年 来 , NLP 还 有 另 一 个 研究 方向 不 断 升 温 ， 就 是 使 用 递归 神经 网 络 (recurrent neural 
network，RNN) 进行 文本 处 理 。 与 只 能 分 配 类 别 标 签 的 分 类 模型 相 比 ，RNN 是 一 种 特 
别 强大 的 神经 网 络 ， 可 以 生成 同样 是 文本 的 输出 。 能 够 生成 文本 作为 输出 ， 使 得 RNN 
非常 适合 自动 翻译 和 摘要 。Jllya Suskever、Oriol Vinyals 和 Quoc Le 的 一 篇 技术 性 相对 
较 强 的 文章 “Sequence to Sequence Learning with Neural Networks” (http://papers.nips.cc/ 

































































































































































paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf) 对 这 一 主题 进行 了 介 
绍 。 在 TensorFlow 网 站 上 可 以 找到 使 用 tensorfLow 框架 的 更 为 实用 的 教程 (https://www. 


tensorflow.org/tutorials/seq2seq ) 。 
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现在 你 知道 了 如 何 使 用 重要 的 机 器 学 习 算 法 进行 监督 学 习 和 无 监督 学 习 ， 这 让 你 可 以 解 
决 很 多 种 机 器 学 习 问 题 。 在 带 你 探索 机 器 学 习 提供 的 所 有 可 能 性 之 前 ， 我 们 希望 给 你 一 
些 最 后 的 建议 、 一 些 额 外 的 资源 ， 并 提供 关于 如 何 进 一 步 提 高 机 器 学 习 和 数据 科学 技能 
的 建议 。 


8.1 处 理 机 器 学 习 问 题 


学 完了 本 书 介绍 的 所 有 强大 的 方法 ， 你 现在 可 能 很 想 马 上 行动 ， 开 始 用 你 最 喜欢 的 算法 来 
解决 数据 相关 的 问题 。 但 这 通常 并 不 是 开始 分 析 的 好 方法 。 机 器 学 习 算法 通常 只 是 更 大 的 
数据 分 析 与 决策 过 程 的 一 小 部 分 。 为 了 有 效 地 利用 机 器 学 习 ， 我 们 需要 退 后 一 步 ， 全 面 地 
思考 问题 。 首 先 ， 你 应 该 思考 想 要 回答 什么 类 型 的 问题 。 你 想 要 做 探索 性 分 析 ， 只 是 看 看 
能 否 在 数据 中 找到 有 趣 的 内 容 ? 或 者 你 已 经 有 了 特定 的 目标 ? 通常 来 说 ， 你 在 开始 时 有 一 
个 目标 ， 比 如 检测 欺诈 用 户 交易 、 推 荐 电影 或 找到 未 知行 星 。 如 果 你 有 这 样 的 目标 ， 那 么 
在 构建 系统 来 实现 目标 之 前 ， 你 应 该 首先 思考 如 何 定义 并 衡量 成 功 ， 以 及 成 功 的 解决 方案 
对 总 体 业务 目标 或 研究 目标 有 什么 影响 。 假 设 你 的 目标 是 欺诈 检测 。 

然后 就 出 现 了 下 列 问题 : 

。 如 何 度量 欺诈 预测 是 否 实际 有 效 ? 

。 我 有 没有 评估 算法 的 合适 数据 ? 

。 如 果 我 成 功 了 ， 那 么 我 的 解决 方案 会 对 业务 造成 什么 影响 ? 

正如 第 5 章 中 所 述 ， 你 最 好 能 使 用 商业 指标 直接 度量 算法 的 性 能 ， 比 如 增加 利润 或 碱 少 损 
失 。 但 这 通常 难以 做 到 。 一 个 更 容易 回答 的 问题 是 :“ 如 果 我 构建 出 完美 的 模型 ， 那 么 会 
怎么 样 ”如 果 完 美 地 检测 出 所 有 欺诈 行 为 可 以 为 你 的 公司 每 月 节省 100 美元 ， 那 么 这 些 
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省 下 来 的 钱 可 能 都 不 够 保证 让 你 开始 动手 开发 算法 。 如 果 模 型 可 能 为 你 的 公司 每 月 节省 上 
万 美元 ， 那 么 这 个 问题 就 值得 探索 。 
假设 你 已 经 定义 好 了 要 解决 的 问题 ， 知 道 一 种 解决 方案 可 能 对 你 的 项 目 产生 重大 影响 ， 此 
外 ， 你 还 确信 拥有 合适 的 信息 来 评估 模型 是 否 成 功 。 接 下 来 的 步骤 通常 是 获取 数据 并 构建 
工作 原型 。 本 书 中 我 们 讨论 过 许多 你 可 以 使 用 的 模型 ， 以 及 如 何 正 确 地 评估 和 调节 这 些 模 
型 。 但 在 尝试 这 些 模 型 时 请 记 住 ， 这 只 是 更 大 的 数据 科学 工作 流程 中 的 一 小 部 分 ， 模 型 构 
建 通 常 是 “收集 新 数据 、 清 洗 数据 、 构 建 模型 和 分 析 模 型 ”这 个 反馈 环 路 的 一 部 分 。 分 析 
模型 所 犯 的 错误 通常 告诉 我 们 : 数据 中 缺失 了 哪些 内 容 、 还 可 以 收集 哪些 额外 数据 ， 或 者 
如 何 重新 规划 任务 使 机 器 学 习 更 加 高 效 。 收 集 更 多 数据 或 不 同 的 数据 ， 或 者 稍微 改变 任务 
规划 ， 可 能 会 比 连续 运行 网 格 搜索 来 调 参 的 回报 更 高 。 


参与 决策 过 程 的 人 

你 还 应 该 考虑 是 否 应 该 让 人 参与 决策 过 程 ， 以 及 如 何 参 与 。 有 些 过 程 (比如 无 人 驾驶 汽车 
的 行人 检测 ) 需要 立即 做 出 决定 。 其 他 过 程 可 能 不 需要 立刻 的 响应 ， 所 以 可 以 让 人 来 决定 
不 确定 的 决策 。 举 个 例子 ， 医 疗 应 用 可 能 需要 非常 高 的 精度 ， 单 靠 机 器 学 习 算法 可 能 无 法 
达到 。 但 如 果 一 个 算法 可 以 自动 完成 90%、50% 甚至 只 有 10% 的 决策 过 程 ， 那 么 都 可 能 
已 经 减少 了 响应 时 间或 降低 了 成 本 。 许 多 应 用 都 以 “简单 情况 ”为 主 ， 算 法 可 以 对 其 做 出 
决策 ， 还 有 相对 较 少 的 “复杂 情况 ”， 可 以 将 其 重新 交 给 人 来 决定 。 


8.2 ”从 原型 到 生产 


本 书 中 讨论 的 工具 对 许多 机 器 学 习 应 用 来 说 都 是 很 好 的 ， 可 以 非常 快速 地 进行 分 析 和 原 
型 设计 。 许 多 组 织 ， 甚 至 是 非常 大 型 的 组 织 ， 比 如 国际 银行 和 全 球 社交 媒体 公司 ， 也 将 
Python 和 scikit-learn 用 于 生产 系统 。 但 是 ， 许 多 公司 拥有 复杂 的 基础 架构 ， 将 Python 
集成 到 这 些 系统 中 并 不 总 是 很 容易 。 这 不 一 定 是 个 问题 。 在 许多 公司 中 ， 数 据 分 析 团 队 使 
用 Python 或 R 等 语言 ， 可 以 对 想法 进行 快速 测试 ， 而 生产 团队 则 使 用 Go、Scala、C++ 和 
Java 等 语言 来 构建 鲁 棒 性 更 好 的 可 扩展 系统 。 数 据 分 析 的 需求 与 构建 实时 服务 并 不 相同 ， 
所 以 这 些 任务 使 用 不 同 的 语言 是 有 道理 的 。 一 个 相对 常见 的 解决 方案 是 使 用 一 种 高 性 能 语 
言 在 更 大 的 框架 内 重新 实现 分 析 团 队 找 到 的 解决 方案 。 这 种 方法 比 戏 入 整个 库 或 整个 编程 
语言 并 与 不 同 数据 格式 互相 转换 要 更 加 简单 。 


无 论 你 能 否 在 生产 系统 中 使 用 scikit-learn， 重 要 的 是 要 记 住 ， 生 产 系统 的 要 求 与 一 次 性 
的 分 析 脚 本 不 同 。 如 果 将 一 个 算法 部 署 到 更 大 的 系统 中 ， 那 么 会 涉及 软件 工程 方面 的 很 
多 内 容 ， 比 如 可 靠 性 、 可 预测 性 、 运 行 时 间 和 内 存 需求 。 对 于 在 这 些 领 域 表现 良好 的 机 器 
学 习 系 统 来 说 ， 简 单 就 是 关键 。 请 仔细 检查 数据 处 理 和 预测 流程 中 的 每 一 部 分 ， 并 问 你 
自己 这 些 问题 : 每 个 步骤 增加 了 多 少 复杂 度 ? 每 个 组 件 对 数据 或 计算 基础 架构 的 变化 的 
和 鲁 棒 性 有 多 高 ? 每 个 组 件 的 优点 能 否 使 其 复杂 度 变 得 合理 ? 如 有 果 你 正在 构建 复杂 的 机 器 
学 习 系 统 ， 我 们 强烈 推荐 阅读 Google 机 器 学 习 团 队 的 研究 者 发 布 的 这 篇 论文 :“Machine 
Learning: The High Interest Credit Card of Technical Debt” (http://research.google.com/pubs/ 
pub43146.html) 。 这 篇 文章 重点 介绍 了 在 大 规模 生产 中 创建 并 维护 机 器 学 习 软 件 的 权衡 。 











































































































































































































虽然 技术 债 问 题 在 大 规模 的 长 期 项 目 中 特别 紧迫 ， 但 即使 是 短期 和 较 小 的 系统 ， 吸 取 的 教 
训 也 有 助 于 我 们 构建 更 好 的 软件 。 


8.3 测试 生产 系统 


在 这 本 书 中 ， 我 们 介绍 了 如 何 基于 事先 收集 的 测试 集 来 评估 算法 的 预测 结果 。 这 被 称 为 离 
线 评估 (offline evaluation) 。 但 如 果 你 的 机 器 学 习 系统 是 面向 用 户 的 ， 那 么 这 只 是 评估 算 
法 的 第 一 步 。 下 一 步 通 常 是 在 线 测 试 (online testing) 或 实时 测试 〈live testing) ， 对 在 整个 
系统 中 使 用 算法 的 结果 进行 评估 。 改 变 网 站 向 用 户 呈 现 的 推荐 结果 或 搜索 结果 ， 可 能 会 极 
大 地 改变 用 户 行为 ， 并 导致 意 想 不 到 的 结果 。 为 了 防止 出 现 这 种 意外 ， 大 部 分 面向 用 户 的 
服务 都 会 采用 A/B 测试 (A/B testing)， 这 是 一 种 请 的 (blind) 用 户 研究 形式 。 在 A/B 测 
试 中 ， 在 用 户 不 知情 的 情况 下 ， 为 选中 的 一 部 分 用 户 提 供 使 用 算法 A 的 网 站 或 服务 ， 而 为 
其 余 用 户 提 供 算法 B。 对 于 两 组 用 户 ， 在 一 段 时 间 内 记录 相关 的 成 功 指标 。 然 后 对 算法 A 
和 算法 B 的 指标 进行 对 比 ， 并 根据 这 些 指标 在 两 种 方法 中 做 出 选择 。 使 用 A/B 测试 让 我 
们 能 够 在 实际 情况 下 评估 算法 ， 这 可 能 有 助 于 我 们 发 现 用 户 与 模型 交互 时 的 意外 后 果 。 通 
常情 况 下 ，A 是 一 个 新 模型 ， 而 了 B 是 已 建立 的 系统 。 在 线 测试 中 还 有 比 A/B 测试 更 为 复杂 
的 机 制 ， 比 如 bandit 算法 。John Myles White 的 Bandit Algorithms for Website Optimization 
(O’Reilly 出 版 社 ，http://shop.oreilly.com/product/0636920027393.do) 一 书 对 这 一 主题 做 出 
了 很 好 的 介绍 。 


8.4 构建 你 自己 的 估计 器 


本 书包 含 scikit-learn 中 实现 的 大 量 工具 和 算法 ， 可 用 于 各 种 类 型 的 任务 。 但 是 ， 你 通常 
需要 对 数据 做 一 些 特殊 处 理 ， 这 些 处 理 方法 没有 在 scikit-learn 中 实现 。 在 将 数据 传人 
scikit-learn 模型 或 管道 之 前 ， 只 做 数据 预 处 理 可 能 也 足够 了 。 但 如 果 你 的 预 处 理 依赖 于 
数据 ， 而 且 你 还 想 使 用 网 格 搜索 或 交叉 验证 ， 那 么 事情 就 变 得 有 点 复杂 了 。 

我 们 在 第 6 章 中 讨论 过 将 所 有 依赖 于 数据 的 处 理 过 程 放 在 交叉 验证 循环 中 的 重要 性 。 那 
么 如 何 同时 使 用 你 自己 的 处 理 过 程 与 scikit-learn 工具 ? 有 一 种 简单 的 解决 方案 : 构建 
你 自己 的 估计 器 ! 实现 一 个 与 scikit-learn 接口 兼容 的 估计 器 是 非常 简单 的 ， 从 而 可 以 
与 Pipeline、GridsSearchCV 和 cross_val_score 一 起 使 用 。 你 可 以 在 scikit-learn 文 档 
中 找到 详细 说 明 (http://scikit-learn.org/stable/developers/contributing.html#rolling-your-own- 
estimator), 但 下 面 是 其 要 点 。 实 现 一 个 变换 器 类 的 最 简单 的 方法 , 就 是 从 BaseEstimator 和 
TransformerMixin 继承 ， 然 后 实现 _init _、fit 和 predict 畏 数 ， 如 下 所 示 。 














































































































































































































In[1]: 
from sklearn.base import BaseEstimator, TransformerMixin 


class MyTransformer(BaseEstimator, TransformerMixin): 
def _init (self, first parameter=1, second_parameter=2): 
# 所 有 参数 必须 在 _init__ 函 数 中 指定 
self.first_ parameter = 1 
self.second_parameter = 2 











280 | 第 8 章 


def fit(self, X, y=None): 
# fit 应 该 只 接受 X 和 y 作 为 参数 
# 即使 你 的 模型 是 无 监督 的 ， 你 也 需要 接受 一 个 y 参 数 ! 





# 下 面 是 模型 拟 合 的 代码 
print("fitting the model right here") 
# fit 返回 seLf 

return self 





de 


hh 


transform(self, X): 
# transform 只 接受 X 作 为 参数 


# 对 X 应 用 某 种 变换 
X_transformed = X + 1 
return X_transformed 


实现 一 个 分 类 器 或 回归 器 的 方法 是 类 似 的 ， 你 只 需要 从 ClassifierMixin 或 RegressorMixin 
继承 ， 而 不 是 TransformerMixin。 此 外 ， 你 还 要 实现 predict， 而 不 必 实 现 transform。 


从 上 面 的 例子 中 可 以 看 出 ， 实 现 你 自己 的 估计 器 需要 很 少 的 代码 ， 随 着 时 间 的 推移 ， 大 部 
分 scikit-learn 用 户 都 会 构建 出 一 组 自 定义 模型 。 


8.5 下 一 步 怎么 走 


本 书 对 机 器 学 习 进 行 了 介绍 ， 并 让 你 成 为 一 名 高 效 的 从 业者 。 但 是 ， 如 果 你 想 要 进一步 提 
高 机 器 学 习 技 能 ， 下 面 是 一 些 关于 书籍 和 更 专业 的 资产 的 建议 ， 以 便 你 进一步 深入 研究 。 


8.5.1 理论 


在 本 书 中 ， 我 们 试图 直观 地 解释 大 多 数 常 见 机 器 学 习 算 法 的 工作 原理 ， 而 不 要 求 你 在 数学 或 
计算 机 科学 方面 具有 坚实 的 基础 。 但 是 ， 我 们 讨论 的 许多 模型 都 使 用 了 概率 论 、 线 性 代数 和 
最 优化 方面 的 理论 。 虽 然 没 有 必要 理解 这 些 算 法 的 所 有 实现 细节 ， 但 我 们 认为 ， 了 解 算法 背 
后 的 一 些 理论 知识 可 以 让 你 成 为 更 优秀 的 数据 科学 家 。 关 于 机 器 学 习 理 论 有 许多 好 书 ， 如 果 
我 们 所 讲 的 内 容 激 起 了 你 对 机 器 学 习 可 能 性 的 兴趣 ， 那 么 我 们 建议 你 挑选 至 少 一 本 书 深入 
阅读 。 我 们 在 前 言 中 已 经 提 到 过 Hastie、Tibshirani 和 Friedman 合 著 的 《统计 学 习 基础 》 一 
书 ， 这 里 值得 重新 推荐 一 下 。 另 一 本 相当 好 读 的 书 是 Stephen Marsland 的 Machine Learning: 
An Algorithmic Perspective (Chapman and HalyCRC 出 版 社 )， 它 还 附带 有 Python 代码 。 还 
有 两 本 强烈 推荐 的 经 典 著 作 : 一 本 是 Christopher Bishop 的 Pattern Recognition and Machine 
Learning (Springer 出 版 社 )， 着 重 于 概率 框架 ， 另 一 本 是 Kevin Murphy 的 Machine Learning: 
4 Probapilistic Perspective (MIT 出 版 社 )， 全 面 论述 了 机 器 学 习 方 法 (1000 多 页 )， 深入 介绍 
了 最 先进 的 方法 ， 内 容 比 本 书 要 丰富 得 多 。 


8.5.2 ”其 他 机 器 学 习 框 架 和 包 


虽然 scikit-learn 是 我 们 最 喜欢 的 机 器 学 习 软 件 包 ,Python 也 是 我 们 最 喜欢 的 机 器 学 习 语 

















































































































注 1: Andreas 在 这 件 事 上 可 能 并 不 完全 客观 。 

















言 ， 但 还 有 许多 其 他 选择 。 根 据 你 的 需求 ，Python 和 scikit-learn 可 能 不 是 你 在 特定 情况 
下 的 最 佳 选 择 。 通 常情 况 下 ，Python 很 适合 尝试 与 评估 模型 ， 但 更 大 型 的 Web 服务 和 应 
用 更 常用 Java 或 C++ 编写 ， 部 署 模型 可 能 需要 与 这 些 系统 进行 集成 。 你 想 要 考虑 scikit- 
learn 之 外 的 选择 可 能 还 有 一 个 原因 ， 就 是 你 对 统计 建 模 和 推断 比 对 预测 更 感 兴 趣 。 在 这 
种 情况 下 ， 你 应 该 考虑 使 用 Python 的 statsmodels 包 ， 它 用 更 具有 统计 学 意义 的 接口 实现 
了 多 种 线性 模型 。 如 果 你 还 没有 专 情 于 Python， 那 么 还 可 以 考虑 使 用 R， 这 是 数据 科学 家 
的 另 一 种 语言 。R 是 专 为 统计 分 析 设 计 的 语言 ， 因 其 出 色 的 可 视 化 功能 和 许多 可 用 的 统计 
建 模 包 (通常 是 非常 专业 化 的 ) 而 闻名 。 
另 一 个 常用 的 机 器 学 习 软 件 包 是 vowpal wabbit (通常 简称 为 vw， 以 避免 绕 口 )， 一 个 用 
C++ 编写 的 高 度 优 化 的 机 器 学 习 包 ， 还 有 命令 行 界面 。vw 对 大 型 数据 集 和 流 数 据 特别 有 
用 。 对 于 在 集群 上 分 布 式 运行 的 机 器 学 习 算 法 ， 在 写作 本 书 时 最 常用 的 解决 方案 之 一 是 
mLLib， 一 个 基于 spark 分 布 式 计算 环境 构建 的 Scala 库 。 


8.5.3 排序 、 推 荐 系统 与 其 他 学 习 类 型 


本 书 是 一 本 入 门 书 ， 所 以 我 们 重点 介绍 最 常见 的 机 器 学 习 任 务 : 监督 学 习 中 的 分 类 与 回 
归 ， 无 监督 学 习 中 的 聚 类 和 信和 号 分 解 。 还 有 许多 类 型 的 机 器 学 习 ， 都 有 很 多 重要 的 应 用 。 
有 两 个 特别 重要 的 主题 没有 包含 在 本 书 中 。 第 一 个 是 排序 问题 (ranking) ， 对 于 特定 查询 ， 
我 们 希望 检索 出 按 相关 性 排序 的 答案 。 你 今天 可 能 已 经 使 用 过 排序 系统 ， 它 是 搜索 引擎 的 
运行 原理 。 你 输入 搜索 查询 并 获取 答案 的 有 序列 表 ， 它 们 按 相关 性 进行 排序 。Manning、 
Raghavan 和 Schuiitze 合 著 的 Jntroduction to Information Retrieval 一 书 给 出 了 对 排序 问题 的 
很 好 介绍 。 第 二 个 主题 是 推荐 系统 (recommender system) ， 就 是 根据 用 户 偏好 向 他 们 提供 
建议 。 你 可 能 已 经 在 “您 可 能 认识 的 人 ”“ 购 买 此 商品 的 顾客 还 购买 了 ”或 “您 的 最 佳 选 
择 ” 等 标题 下 遇 到 过 推荐 系统 。 关 于 这 一 主题 有 大 量 文献 ， 如 果 想 立刻 投身 于 这 一 主题 ， 
你 可 能 对 目前 经 典 的 “Netflix 大 奖 挑战 ”(Netflix prize challenge,， http://www.netflixprize. 
com/) 感 兴趣 。Netflix 视频 流 网 站 发 布 了 关于 电影 偏好 的 大 型 数据 集 ， 并 对 给 出 最 佳 推 荐 
的 团队 奖励 一 百 万 美元 。 另 一 种 常见 的 应 用 是 时 间 序 列 预测 〈 比 如 股票 价格 ) ， 这 方面 也 
有 大 量 的 文献 。 还 有 许多 类 型 的 机 器 学 习 任 务 ， 比 我 们 这 里 列 出 的 要 多 得 多 ， 我 们 建议 你 
从 书籍 、 研 究 论文 和 在 线 社区 中 获取 信息 ， 以 找到 最 适合 你 实际 情况 的 范式 。 


8.5.4 概率 建 模 、 推 断 与 概率 编程 

大 部 分 机 器 学 习 软 件 包 都 提供 了 预定 义 的 机 器 学 习 模型 ， 每 种 模型 应 用 了 一 种 特定 算法 。 
但 是 ， 许 多 现实 世界 的 问题 都 具有 特殊 的 结构 ， 如 果 将 这 种 结构 正确 地 纳入 模型 ， 则 可 以 
得 到 性 能 更 好 的 预测 。 通 常 来 说 ， 具 体 问题 的 结构 可 以 用 概率 论 的 语言 来 表述 。 这 种 结构 
通常 来 自 于 你 想 要 预测 的 情况 的 数学 模型 。 为 了 理解 结构 化 问题 的 含义 ， 请 思 萎 下 面 这 个 
例子 。 

假设 你 想 要 构建 一 个 在 户外 空间 提供 非常 详细 的 位 置 估 计 的 移动 应 用 ， 以 帮助 用 户 定位 历 
史 遗 迹 。 手 机 提供 了 许多 传感器 来 帮 你 获取 精确 的 位 置 测量 ， 比 如 GPS、 加 速度 计 和 指南 
针 。 你 可 能 还 有 该 区 域 的 精确 地 图 。 这 个 问题 是 高 度 结构 化 的 。 你 从 地 图 中 知道 了 感 兴 
地 点 的 位 置 和 路 径 。 你 还 从 GPS 中 得 到 了 粗略 的 位 置 ， 而 用 户 设备 中 的 加 速度 计 和 指南 针 
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可 以 为 你 提供 非常 精确 的 相对 测量 。 但 是 ， 将 所 有 这 些 工 具 全 部 放 入 墨盒 机 器 学 习 系统 中 
来 预测 位 置 ， 可 能 并 不 是 最 好 的 主意 。 这 将 会 丢掉 你 已 经 知道 的 关于 现实 世界 如 何 运 行 的 
所 有 信息 。 如 果 指 南 针 和 加 速度 计 告 诉 你 一 名 用 户 正在 向 北 走 ， 而 GPS 告诉 你 该 用 户 正在 
向 南 走 ， 你 可 能 不 相信 GPS。 如 果 位 置 估计 告诉 你 用 户 刚刚 走 过 一 堵 墙 ， 你 应 该 也 会 非常 
怀疑 。 可 以 使 用 概率 模型 来 表述 这 种 情况 ， 然 后 再 使 用 机 器 学 习 或 概率 推断 来 找 出 你 应 该 
对 每 种 测量 方法 的 信任 程度 ， 并 推断 出 该 用 户 位 置 的 最 佳 猜测 。 

一 旦 你 用 正确 的 方式 对 现状 和 不 同 因素 共同 作用 的 模型 进行 表述 ， 那 么 就 有 一 些 方法 可 以 
利用 这 些 自 定 义 模 型 直接 计算 出 预测 结果 。 这 些 方法 中 最 普遍 的 方法 被 称 为 概率 编程 语 
言 ， 它 们 提供 了 一 种 非常 优雅 又 非常 紧凑 的 方法 来 表述 学 习 问 题 。 概 率 编程 语言 的 常见 例 
子 有 PyMC (可 用 于 Python) 和 Stan (可 用 于 多 种 语言 的 框架 ， 包 括 Python)。 虽 然 这 些 软 
件 包 需 要 你 对 概率 论 有 一 些 了 解 ， 但 它们 大 大 简化 了 新 模型 的 创建 过 程 。 


8.5.5 神经 网 络 

虽然 我 们 在 第 2 章 和 第 7 章 都 简要 涉及 了 神经 网 络 的 主题 ， 但 这 是 机 器 学 习 快 速 发 展 的 领 
域 ， 每 周 都 会 发 布 新 方法 和 新 应 用 。 机 器 学 习 和 人 工 智 能 领域 的 最 新 突破 都 由 这 些 进步 所 
驱动 ， 比 如 Alpha Go 程序 在 围棋 比赛 中 战胜 人 类 冠军 、 语 音 理解 的 性 能 不 断 提 高 ， 以 及 
接近 实时 的 语音 翻译 的 出 现 。 虽 然 这 一 领域 的 进步 非常 迅速 ， 以 致 当前 对 最 新 进展 的 任 
何 参 考 很 快 都 会 过 时 ， 但 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 的 新 书 Deep 
Learning (MIT 出 版 社 ) 对 这 一 主题 进行 了 全 面 介绍 。” 


8.5.6 推广 到 更 大 的 数据 集 


在 本 书 中 我 们 总 是 假设 ， 所 处 理 的 数据 可 以 被 存储 为 内 存 (RAM) 中 的 一 个 NumPy 数组 
或 SciPy 稀 玻 和 矩阵 。 即 使 现代 服务 器 通常 都 具有 数 百 GB 的 RAM， 但 这 也 是 对 你 所 能 处 理 
数据 大 小 的 根本 限制 。 不 是 所 有 人 都 买 得 起 这 么 大 型 的 机 器 ， 甚 至 连 从 云端 供应 商 租 一 台 
都 负担 不 起 。 不 过 在 大 多 数 应 用 中 ， 用 于 构建 机 器 学 习 系 统 的 数据 量 相对 较 小 ， 很 少 有 机 
器 学 习 数 据 集 包含 数 百 GB 以 上 的 数据 。 在 多 数 情况 下 ， 这 让 扩展 内 存 或 从 云端 供应 商 租 
一 台 机 器 变 成 可 行 的 解决 方案 。 但 是 ， 如 果 你 需要 处 理 TB 级 别 的 数据 ， 或 者 需要 节省 处 
理 大 量 数据 的 费用 ， 那 么 有 两 种 基本 策略 : 核 外 学 习 (out-of-core learning) 与 集群 上 的 并 


行 化 (parallelization over a cluster) 。 


核 外 学 习 是 指 从 无 法 保存 到 主 存储 器 的 数据 中 进行 学 习 ， 但 在 单 台 计算 机 上 (甚至 是 一 
台 计 算 机 的 单个 处 理 器 ) 进行 学 习 。 数 据 从 硬盘 或 网 络 等 来 源 进行 读 取 ， 一 次 读 取 一 个 
样本 或 者 多 个 样本 组 成 的 数据 块 ， 这 样 每 个 数据 块 都 可 以 读 入 RAM。 然 后 处 理 这 个 数 
据 子 集 并 更 新 模型 ， 以 体现 从 数据 中 学 到 的 内 容 。 然 后 舍弃 该 数据 块 ， 并 读 取 下 一 块 数 
据 。scikit-learn 中 的 一 些 模型 实现 了 核 外 学 习 ， 你 可 以 在 在 线 用 户 指南 中 找到 相关 细节 
(http://scikit-learn.org/stable/modules/scaling_strategies.html#scaling-with-instances-using-out- 
of-core-learning)。 因 为 核 外 学 习 要 求 所 有 数据 都 由 一 台 计 算 机 处 理 ， 所 以 在 非常 大 的 数据 
集 上 的 运行 时 间 可 能 很 长 。 此 外 ， 并 非 所 有 机 器 学 习 算法 都 可 以 用 这 种 方法 实现 。 












































































































































注 2: Deep Learning 的 预 印 本 可 在 http:/www.deeplearningbook.org/ 查看 。 








男 一 种 扩展 策略 是 将 数据 分 配给 计算 机 集群 中 的 多 台 计 算 机 ， 让 每 台 计 算 机 处 理 部 分 数 
据 。 对 于 某 些 模 型 来 说 这 种 方法 要 快 得 多 ， 而 可 以 处 理 的 数据 大 小 仅 受 限于 集群 大 小 。 
但 是 ， 这 种 计算 通常 需要 相对 复杂 的 基础 架构 。 目 前 最 常用 的 分 布 式 计算 平台 之 一 是 在 
Hadoop 之 上 构建 的 spark 平台 。spark 在 MLLib 包 中 包含 一 些 机 器 学 习 功 能 。 如 果 你 的 数 
据 已 经 位 于 Hadoop 文件 系统 中 ， 或 者 你 已 经 使 用 spark 来 预 处 理 数据 ， 那 么 这 可 能 是 最 
简单 的 选项 。 但 如 果 你 还 没有 这 样 的 基础 架构 ， 建 立 并 集成 一 个 spark 集群 可 能 花费 过 大 。 
前 面 提 到 的 vw 包 提供 了 一 些 分 布 式 功能 ， 在 这 种 情况 下 可 能 是 更 好 的 解决 方案 。 


8.5.7 ” 磨 练 你 的 技术 


与 生活 中 的 许多 事情 一 样 ， 只 有 实践 才能 让 你 成 为 本 书 所 介绍 主题 方面 的 专家 。 对 于 不 同 
的 任务 和 不 同 的 数据 集 ， 特 征 提 取 、 预 处 理 、 可 视 化 和 模型 构建 可 能 差异 很 大 。 你 或 许 足 
够 幸运 ， 已 经 能 够 访问 大 量 数 据 集 和 任务 。 如 果 你 还 没有 想到 什么 任务 ， 那 么 一 个 好 的 起 
点 是 机 器 学 习 竞 赛 ， 它 会 发 布 一 个 数据 集 和 一 个 给 定 任务 ,许多 团队 为 得 到 最 佳 预 测 结果 
而 展开 竞争 。 许 多 公司 、 非 司 利 组 织 和 大 学 都 会 举办 这 种 比赛 。 要 想 找 到 这 些 比赛 ， 最 常 
去 的 地 方 之 一 是 Kaggle (https://www.kaggle.com/)， 这 是 一 个 定期 举办 数据 科学 比赛 的 网 
站 ， 其 中 一 些 比 赛会 提供 大 量 奖金 。 


Kaggle 论坛 也 是 关于 机 器 学 习 最 新 工具 和 技巧 的 很 好 的 信息 来 源 ， 在 网 站 上 可 以 找到 大 量 
数据 集 。 在 OpenML 平台 (http:/www.openml.org/) 上 可 以 找到 更 多 的 数据 集 及 相关 任务 ， 
该 平台 拥有 20 000 多 个 数据 集 ， 以 及 50 000 多 个 相关 的 机 器 学 习 任 务 。 处 理 这 些 数 据 集 
可 以 提供 练习 机 器 学 习 技 能 的 好 机 会 。 比 赛 的 一 个 缺点 是 ， 提 供 了 特定 的 指标 来 优化 ， 通 
常 还 提供 了 一 个 固定 的 、 已 经 预 处 理 过 的 数据 集 。 请 记 住 ， 定 义 问题 和 收集 数据 也 是 现实 
世界 问题 的 重要 方面 ， 用 正确 的 方式 表示 问题 可 能 比 努 力 提 高 分 类 器 精度 的 最 后 一 个 百 分 
点 要 重要 得 多 。 


8.6 总 结 


我 们 希望 已 经 让 你 相信 了 机 器 学 习 在 大 量 应 用 中 的 实用 性 ， 以 及 在 实践 中 实现 机 器 学 习 的 
简单 性 。 继 续 挖掘 数据 ， 同 时 不 要 忽视 大 局 。 
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关于 封面 

这 本 书 封 面 上 的 动物 是 一 只 美洲 大 鲍 (hellbender salamander， 拉 丁 名 为 Cryptobranchus 
alleganiensis) ， 是 一 种 原 产 于 美国 东部 (从 纽约 到 佐治 亚 ) 的 两 栖 动物 。 它 有 许多 有 趣 的 
绰号 ， 包 括 “ 阿 勒 格 尼 鳄 鱼 ” 自 涕 水 猎 ” 和 “ 泥 中 恶魔 "。 hellbender” (字面 意思 是 “地 
狱 狂 欢 ”) 这 个 名 字 的 起 源 已 不 可 考 : 一 种 理论 认为 ， 早 期 移民 认为 美洲 大 鲍 的 样子 令 人 
不 安 ， 并 认为 它 是 设法 返回 地 狱 的 恶魔 生物 。 


美洲 大 鲍 是 隐 鳃 鲍 科 的 成 员 ， 最 长 可 达 74 厘 米 。 它 是 世界 上 第 三 大 的 水 生 大 鲍 。 它 的 身 
体 相 当 扁 平 ， 体 侧 有 很 厚 的 皮肤 裙 氏 。 虽 然 在 脖子 的 两 侧 各 有 一 个 肌 ， 但 美洲 大 鲍 主 要 靠 
皮肤 袜 争 进行 呼吸 : 气体 通过 靠近 皮肤 表面 的 毛细 血管 进出 体内 。 

因此 ， 它 们 的 理想 栖息 地 是 清澈 、 流 速 快 、 浅 水 的 溪流 ， 可 以 为 它们 提供 充足 的 氧气 。 美 
洲 大 鲍 躲 在 岩石 下 面 ， 主 要 靠 嗅觉 捕食 ， 不 过 它 也 能 探测 到 水 中 的 振动 。 它 的 食物 包括 小 
龙 是 、 小 鱼 ， 偶 尔 也 吃 同 类 的 卵 。 美 洲 大 鲍 还 是 其 生态 系统 中 一 种 重要 的 猎物 ， 其 捕食 者 
包括 各 种 鱼 、 蛇 和 龟 。 

美洲 大 够 的 数量 在 过 去 几 十 年 里 急剧 减少 。 水 质 是 最 大 的 问题 ， 因 为 它们 的 呼吸 系统 使 其 
对 被 污染 的 水 或 浑 水 非常 敏感 。 它 们 栖息 地 附近 的 农业 活动 和 其 他 人 类 活动 越 来 越 多 ， 导 
致 水 中 的 沉积 物 和 化 学 品 越 来 越 多 。 为 了 拯救 这 种 濒危 物种 ， 生 物 学 家 已 经 开始 人 工 养殖 
两 栖 动 物 ， 并 在 它们 成 长 到 不 那么 脆弱 之 后 将 其 放生 。 

O’Reilly 图 书 封面 上 的 很 多 动物 都 是 濒危 动物 ， 它 们 对 世界 都 很 重要 。 想 要 详细 了 解 如 何 


帮助 这 些 动物 ， 请 访问 animals.oreilly.com。 


封面 图 片 来 自 于 Wood 的 Animate Creation。 
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